Hadoop生态系统

假人迁移hadoop

是什么Hadoop生态系统?

Apache Hadoop生态系统是指各种组件的Apache Hadoop软件图书馆;它包括开源项目以及一个完bob下载地址整的范围的补充工具。一些最知名的Hadoop生态系统包括的工具HDFS,蜂巢,猪,纱,MapReduce火花,HBase Oozie Sqoop,动物园管理员,等等。这里是主要的Hadoop生态系统组件,开发人员经常利用:

HDFS是什么?

Hadoop分布式文件系统(HDFS),是一个最大的Apache项目和Hadoop的主要存储系统。它雇佣NameNode和DataNode架构。它是一个分布式文件系统能够存储大文件运行的集群硬件。

蜂巢是什么?

蜂巢是ETL和数据仓库工具用于查询或分析大型数据集存储在Hadoop生态系统。蜂巢有三大主要功能:数据汇总、查询和分析Hadoop的非结构化和半结构化数据。它功能一个SQL接口,HQL语言类似于SQL,并自动将查询转化为工作的MapReduce工作。

Apache猪是什么?

这是一个高级脚本语言用于执行查询中使用Hadoop的更大的数据集。猪的简单sql的脚本语言被称为拉丁和它的主要目标是执行所需的操作和安排的最后输出所需的格式。

MapReduce是什么?

地图减少——Hadoop

这是另一个Hadoop数据处理层。它有能力处理大型结构化和非结构化数据管理以及非常大的并行数据文件通过将工作划分为一组独立的任务(sub-job)。

纱是什么?

纱代表另一个资源谈判代表,但它通常被称为的缩写。这是一个开源的Apache Hadoop的核心组件适用于资源管理。bob下载地址它负责管理工作负载、监视和安全控制的实现。它还分配系统资源在Hadoop集群运行各种应用程序分配应该执行哪个任务每个集群节点。纱线有两个主要组件:

  • 资源管理器
  • 节点管理器

Apache火花是什么?

Apache火花是一种快速、内存数据处理引擎适用于各种环境。火花可以部署在几个方面,以Java、Python、Scala,和R编程语言,并支持SQL,流媒体数据,机器学习和图像处理,可以在应用程序一起使用。

Apache Hadoop火花——生态系统

额外的资源

回到术语表