Apache Spark on Databricks
本文描述了Apache Spark与Databricks和Databricks Lakehouse平台的关系。bob体育客户端下载
Apache Spark是Databricks Lakehouse平台的核心,是为平台上的计算集群和SQL仓库提供bob体育客户端下载动力的技术。Databricks是Apache Spark的优化平bob体育客户端下载台,为运行Apache Spark工作负载提供了一个高效而简单的平台。
Apache Spark和Databricks是什么关系?
Databricks公司是由Apache Spark的最初创建者创建的。作为一个开源bob下载地址软件项目,Apache Spark拥有来自许多顶级公司的提交者,包括Databricks。
Databricks继续为Apache Spark开发和发布特性。Databricks运行时包含额外的优化和专有特性,这些特性是在Apache Spark基础上构建并扩展的,包括光子是用c++重写的Apache Spark的优化版本。
Apache Spark如何在Databricks上工作?
无论何时在Databricks上部署计算集群或SQL仓库,Apache Spark都会配置并部署到虚拟机。您不需要担心配置或初始化Spark上下文或Spark会话,因为这些由Databricks为您管理。
我可以不使用Apache Spark使用Databricks吗?
Databricks支持各种工作负载,并在Databricks运行时中包含许多其他开源库。bob下载地址Databricks SQL在底层使用Apache Spark,但最终用户使用标准SQL语法创建和查询数据库对象。
Databricks Runtime for Machine Learning针对ML工作负载进行了优化,许多数据科学家在研究Databricks时使用主要的开源库,如TensorFlow和SciKit Learn。bob下载地址你可以使用工作流根据Databricks部署和管理的计算资源调度任意工作负载。