Apache火花

回到术语表

Apache火花是什么?

Apache火花是一个开源的分析引擎用bob下载地址于大数据的工作量。它可以处理两个批次以及实时分析和数据处理工作负载。Apache火花的研究项目始于2009年,加州大学伯克利分校。研究人员正在寻找一种方法来加速处理工作Hadoop系统。它是基于HadoopMapReduce它扩展了MapReduce模型有效地使用更多类型的计算,其中包括交互式查询和流处理。火花提供了Java本机绑定,Scala, Python和R编程语言。此外,它包括几个机器学习库来支持构建应用程序(MLlib),流处理(火花流),和图形处理[GraphX]。Apache火花由火花和一组核心库。火花核心是Apache火花的核心和传播,它负责提供分布式任务调度,和I / O功能。火花核心引擎使用弹性分布式数据集的概念(抽样)作为其基本数据类型。抽样的目的是它将隐藏大部分用户的计算复杂度。火花是聪明的方式作用于数据;数据和分区聚合在一个服务器集群,它可以计算并搬到一个不同的数据存储或浏览一个分析模型。你不会被要求指定文件的目的地或需要使用的计算资源以存储或检索文件。弹性分布式数据集

Apache火花的好处是什么?

Apache火花的好处

速度

火花执行快速通过在内存中缓存数据跨多个并行操作。火花的主要特征是它的内存引擎,提高了处理速度;使它100倍MapReduce处理内存时,磁盘上的快10倍,当涉及到大规模数据处理。火花使之成为可能通过减少磁盘的读/写操作。

实时流处理

Apache火花可以处理实时流以及其他框架的集成。火花mini-batches中摄食数据并执行这些mini-batches抽样转换数据。

支持多种工作负载

Apache火花可以运行多个工作负载,包括交互式查询,实时分析,机器学习,图像处理。一个应用程序可以无缝地结合多个工作负载。

增加可用性

支持多种编程语言的能力使其动态。它允许您快速编写应用程序在Java中,Scala, Python,和R;给你各种各样的语言来构建应用程序。

先进的分析

火花支持SQL查询,机器学习,流处理和图像处理。

额外的资源


回到术语表