Apache火花™
自从它发布以来,Apache火花统一的分析引bob体育亚洲版擎,已经被广泛行业的企业迅速采用。Netflix、雅虎和eBay等互联网巨头已经大规模部署了Spark,在超过8000个节点的集群上共同处理数pb的数据。它已经迅速成为大数据领域最大的开源社区,拥有来自250多个组织的10bob下载地址00多名贡献者。
Apache Spark是100%开源的,bob下载地址托管于独立于供应商的Apache软件基金会。在Databricks,我们完全致力于维护这种开放的开发模式。Databricks与Spark社区一起,通过开发和社区宣传,继续为Apache Spark项目做出巨大贡献。
Spark可以从自底向上的性能设计在大规模数据处理方面,比Hadoop快100倍通过利用内存计算和其他优化。当数据存储在磁盘上时,Spark的速度也很快,目前保持着大规模磁盘排序的世界纪录。
Spark为大型数据集提供了易于使用的api。这包括用于转换数据的超过100个操作符的集合,以及用于操作半结构化数据的熟悉的数据帧api。
Spark打包了更高级别的库,包括对SQL查询、流数据、机器学习和图形处理的支持。这些标准库提高了开发人员的工作效率,并且可以无缝地结合起来创建复杂的工作流。