HDFS百度百科 Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System) HDFS是一个高度容错性的系统
tachyon百度百科 Tachyon是一个高性能、高容错、基于内存的开源分布式存储系统
kfs百度百科 Kosmos distributed file system (KFS)是一个专门为数据密集型应用(搜索引擎,数据挖掘等)而设计的存储系统
离线计算 Spark百度百科 Spark:各种格式、各种计算(机器学习、图形计算)、可sql、可代码处理、支持scala/java/python语言开发。提供scala/python代码命令行运行、超大数据支持差。
Hadoop百度百科 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算
MapReduce百度百科 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性 流式、实时计算 Apache Storm 分布式实时计算系统 开源中国 Apache Storm 是一个免费开源的分布式实时计算系统。简化了流数据的可靠处理,像 Hadoop 一样实现实时批处理。Storm 很简单,可用于任意编程语言。
YARN百度百科 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处 Mesos百度百科 Apache Mesos 是一个集群管理器类似于YARN,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行 Hadoop、MPI、Hypertable、Spark
Apache Druid中文文档 Apache Druid是一个高性能的实时分析型数据库
Kylin百度百科 Kylin:预计算、好优化、高性能、支持mr、spark、基于时间的增量更新、流式更新、数据源有hive/kafka、提供开发用的管理台是一套开发系统。由于有预计算、所以其他各个模块独立,能支持高并发。可以直接作为软件系统的数据源。
Apache Phoenix csdn文章:Phoenix是一个开源的HBASE SQL层
Hbase百度百科 Hbase:key/value、强一致性、不丢数据 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统
cassandra百度百科 Cassandra:弱一致性,数据可能丢失。可用性高、读写性能比hbase高 Cassandra是一套开源分布式NoSQL数据库系统
Hive百度百科 hive是基于Hadoop的一个数据仓库工具
Presto实现原理和美团的使用实践 Presto是一个facebook开源的分布式SQL查询引擎
Impala百度百科 Impala查询系统:hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化,并且有的语句超过内存会报错。
Elasticsearch百度百科 Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口
TensorFlow百度百科 TensorFlo是一个基于数据流编程(dataflow programming)的符号数学系统
DeepLearning4J开源中国 DeepLearning4J:(DL4J)是一套基于Java语言的神经网络工具包,可以构建、定型和部署神经网络。DL4J与Hadoop和Spark集成,支持分布式CPU和GPU。
Keras百度百科 Keras是一个由Python编写的开源人工神经网络库
mahout百度百科 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。
Spark MLlib简介 MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。