Apache Spark on Databricks

本文描述了Apache Spark与Databricks和Databricks Lakehouse平台的关系。bob体育客户端下载

Apache Spark是Databricks Lakehouse平台的核心,是为平台上的计算集群和SQL仓库提供bob体育客户端下载动力的技术。Databricks是Apache Spark的优化平bob体育客户端下载台,为运行Apache Spark工作负载提供了一个高效而简单的平台。

Apache Spark和Databricks是什么关系?

Databricks公司是由Apache Spark的最初创建者创建的。作为一个开源bob下载地址软件项目,Apache Spark拥有来自许多顶级公司的提交者,包括Databricks。

Databricks继续为Apache Spark开发和发布特性。Databricks运行时包含额外的优化和专有特性,这些特性是在Apache Spark基础上构建并扩展的,包括光子是用c++重写的Apache Spark的优化版本。

Apache Spark如何在Databricks上工作?

无论何时在Databricks上部署计算集群或SQL仓库,Apache Spark都会配置并部署到虚拟机。您不需要担心配置或初始化Spark上下文或Spark会话,因为这些由Databricks为您管理。

我可以不使用Apache Spark使用Databricks吗?

Databricks支持各种工作负载,并在Databricks运行时中包含许多其他开源库。bob下载地址Databricks SQL在底层使用Apache Spark,但最终用户使用标准SQL语法创建和查询数据库对象。

Databricks Runtime for Machine Learning针对ML工作负载进行了优化,许多数据科学家在研究Databricks时使用主要的开源库,如TensorFlow和SciKit Learn。bob下载地址你可以使用工作流根据Databricks部署和管理的计算资源调度任意工作负载。

为什么在Databricks上使用Apache Spark ?

Databricks Lakehouse平台为开发bob体育客户端下载和部署适合您业务规模的企业解决方案提供了一个安全、协作的环境。Databricks的员工代表了世界上许多最有知识的Apache Spark维护者和用户,该公司不断开发和发布新的优化,以确保用户能够访问运行Apache Spark的最快环境。