Hadoop集群

返回术语表

什么是Hadoop集群?

ApacheHadoop是一个开源的bob下载地址、基于java的软件框架和并行数据处理引擎。它可以将大数据分析处理任务分解为更小的任务,这些任务可以通过使用算法(如MapReduce算法),并将它们分布在Hadoop集群中。Hadoop集群是一组被称为节点的计算机的集合,这些计算机联网在一起,对大数据集执行这些并行计算。与其他计算机集群不同,Hadoop集群是专门为存储和分析分布式计算环境中的大量结构化和非结构化数据而设计的。进一步区分Hadoop生态系统不同于其他计算机集群的是它们独特的结构和体系结构。Hadoop集群由连接的主节点和从节点组成,这些节点利用高可用性、低成本的商用硬件。线性扩展和根据体积需求快速添加或减去节点的能力使它们非常适合大数据分析数据集大小变化很大的作业。

Hadoop集群架构

Hadoop集群由主节点和工作节点组成,它们协调并执行Hadoop分布式文件系统中的各种作业。主节点通常使用更高质量的硬件,包括NameNode、Secondary NameNode和JobTracker,每个节点在单独的机器上运行。worker由虚拟机组成,在商品硬件上运行DataNode和TaskTracker服务,并按照主节点的指示执行存储和处理作业的实际工作。系统的最后一部分是客户端节点,它负责加载数据和获取结果。Hadoop集群由三种不同的节点类型组成:主节点、工作节点和客户端节点
  • 主节点负责将数据存储在HDFS并监督关键操作,例如使用MapReduce对数据进行并行计算。
  • 工作节点包括Hadoop集群中的大多数虚拟机,并执行存储数据和运行计算的工作。每个工作节点运行DataNode和TaskTracker服务,它们用于接收来自主节点的指令。
  • 客户端节点负责将数据加载到集群中。客户端节点首先提交描述如何处理数据的MapReduce作业,然后在处理完成后获取结果。

Hadoop中的集群大小是什么?

Hadoop集群大小是定义运行Hadoop工作负载的存储和计算能力的一组指标,即:
  • 节点数:主节点数、边缘节点数、工作节点数。
  • 每种类型节点的配置:每个节点的核数、RAM和Disk Volume。

Hadoop集群的优势是什么?

  • Hadoop集群可以提高许多大数据分析工作的处理速度,因为它们能够将大型计算任务分解为可以并行、分布式方式运行的小任务。
  • Hadoop集群易于扩展,可以快速添加节点以提高吞吐量,并在面对不断增加的数据块时保持处理速度。
  • 使用低成本、高可用性的商用硬件使得Hadoop集群的设置和维护相对容易和便宜。
  • Hadoop集群跨分布式文件系统复制数据集,使它们能够适应数据丢失和集群故障。
  • Hadoop集群使得集成和利用来自多个不同源系统和数据格式的数据成为可能。
  • 出于评估的目的,可以使用单节点安装部署Hadoop。

Hadoop集群的挑战是什么?

  • 小文件的问题——Hadoop在处理大容量的小文件时遇到了困难——小于Hadoop块大小的默认值128MB或256MB。它的设计并不是为了以可扩展的方式支持大数据。相反,Hadoop在有少量大文件时工作得很好。最终,当您增加小文件的容量时,它会使Namenode过载,因为它为系统存储名称空间。
  • 高处理开销——Hadoop中的读写操作会很快变得非常昂贵,尤其是在处理大量数据时。这一切都归结于Hadoop无法在内存中进行处理,而是从磁盘读取和写入数据。
  • 只支持批处理——Hadoop是为批量处理大文件而构建的。这又回到了数据收集和存储的方式,所有这些都必须在处理开始之前完成。这最终意味着流数据不受支持,并且无法进行低延迟的实时处理。
  • 迭代处理——Hadoop的数据流结构是按顺序建立的,因此不可能进行迭代处理或用于机器学习。

额外的资源


返回术语表