Apache火花

Apache Spark是一个闪电般的速度bob体育亚洲版统一分析引擎为了大数据和机器学习。它最初于2009年在加州大学伯克利分校开发。

数据处理领域最大的开源项bob下载地址目。

自从它发布以来,Apache火花统一的分析引bob体育亚洲版擎,已经被广泛行业的企业迅速采用。Netflix、雅虎和eBay等互联网巨头已经大规模部署了Spark,在超过8000个节点的集群上共同处理数pb的数据。它已经迅速成为大数据领域最大的开源社区,拥有来自250多个组织的10bob下载地址00多名贡献者。
Spark - Apache Spark

在加州大学伯克利分校启动Spark研究项目的团队于2013年成立了Databricks。

Apache Spark是100%开源的,bob下载地址托管于独立于供应商的Apache软件基金会。在Databricks,我们完全致力于维护这种开放的开发模式。Databricks与Spark社区一起,通过开发和社区宣传,继续为Apache Spark项目做出巨大贡献。


Apache Spark生态系统

Spark SQL + DataFrames

结构化数据:Spark SQL

许多数据科学家、分析师和一般商业智能用户依赖交互式SQL查询来探索数据。Spark SQL是一个用于结构化数据处理的Spark模块。它提供了一种名为DataFrames的编程抽象,还可以充当分布式SQL查询引擎。它使未经修改的Hadoop Hive查询在现有部署和数据上的运行速度提高了100倍。它还提供了与Spark生态系统其他部分的强大集成(例如,将SQL查询处理与机器学习集成)。

流媒体

流式分析:Spark流式

许多应用程序不仅需要处理和分析批量数据,还需要实时处理和分析新数据流。Spark Streaming运行在Spark之上,支持跨流和历史数据的强大交互和分析应用程序,同时继承了Spark的易用性和容错特性。它很容易与各种流行的数据源集成,包括HDFS、Flume、Kafka和Twitter。

MLlib机器学习

机器学习:MLlib

机器学习已经迅速成为挖掘大数据以获得可操作见解的关键部分。MLlib构建在Spark之上,是一个可扩展的机器学习库,提供高质量的算法(例如,多次迭代以提高精度)和惊人的速度(比MapReduce快100倍)。该库可作为Spark应用程序的一部分在Java、Scala和Python中使用,因此您可以将其包含在完整的工作流中。

GraphX图计算

图计算:GraphX

GraphX是一个构建在Spark之上的图计算引擎,使用户能够交互式地构建、转换和推理大规模的图结构数据。它配有一个通用算法库。

Spark Core API

一般执行:Spark Core

Spark Core是Spark平台的底层通用执行引擎,所有其他功能都构建在其之上。bob体育客户端下载它提供了内存计算功能以提高速度,提供了支持各种应用程序的通用执行模型,以及简化开发的Java、Scala和Python api。

R
SQL
Python
Scala
Java

什么是Apache Spark - Apache Spark的好处

速度

Spark可以从自底向上的性能设计在大规模数据处理方面,比Hadoop快100倍通过利用内存计算和其他优化。当数据存储在磁盘上时,Spark的速度也很快,目前保持着大规模磁盘排序的世界纪录。

易用性

Spark为大型数据集提供了易于使用的api。这包括用于转换数据的超过100个操作符的集合,以及用于操作半结构化数据的熟悉的数据帧api。

统一引擎

Spark打包了更高级别的库,包括对SQL查询、流数据、机器学习和图形处理的支持。这些标准库提高了开发人员的工作效率,并且可以无缝地结合起来创建复杂的工作流。

在Databricks云上免费试用Apache Spark

Databricks统一分析平bob体育亚洲版台提供了5倍于开源Sbob体育客户端下载park、协作笔记本、集成工作流和企业安全性的性能-所有这些都在一个完全bob下载地址管理的云平台中。

试着砖

开源Apbob下载地址ache Spark项目可以在这里下载