将数据应用程序迁移到Databricks

本文介绍如何将现有数据应用程序迁移到Databricks。Databricks提供了一种统一的方法,允许您在一个平台上处理来自多个源系统的数据。bob体育客户端下载

有关平台功能的概述,请参见bob体育客户端下载什么是数据库?

将ETL作业迁移到Databricks

只需几个步骤,就可以将用于从on-prem或云本地实现提取、转换和加载数据的Apache Spark作业迁移到Databricks。看到为Databricks调整现有的Apache Spark代码

Databricks通过预先配置的开源集成、合作伙伴集成和企业产品产品扩展了Spark SQL的功能。bob下载地址如果您的ETL工作负载是用SQL或Hive编写的,那么只需进行最少的重构就可以迁移到Databricks。BOB低频彩了解更多Databricks SQL产品:

有关从各种源系统迁移到Databricks的具体说明,请参见将ETL管道迁移到Databricks

用湖边小屋代替你的数据仓库

当工作负载围绕存储在湖屋中的数据对齐时,Databricks提供了最佳的价值和性能。许多企业数据栈包括数据湖和数据仓库,组织创建复杂的ETL工作流,试图使这些系统与准确及时的数据保持同步。湖屋允许您在查询和系统中利用存储在数据湖中的相同数据,而这些查询和系统通常依赖于数据仓库。关于湖边小屋的更多信息,请参见什么是Databricks Lakehouse?

从数据仓库迁移到湖边小屋通常会降低数据架构和工作流的复杂性,但在完成这项工作时,需要牢记一些注意事项和最佳实践。看到将您的企业数据仓库迁移到Databricks Lakehouse

统一您的ML、数据科学和分析工作负载

由于lakehouse通过表查询或文件路径提供了对基于云的数据文件的优化访问,因此您可以在数据的单个副本上进行ML、数据科学和分析。Databricks可以轻松地从开源和专有工具转移工作负载,并维护分析师和数据科学家使用的许多开源库的更新bob下载地址版本。

Jupyter笔记本中的Pandas工作负载可以同步并使用砖回购.砖提供当地人对熊猫的支持在所有Databricks运行时版本中,配置了许多流行的ML和深度学习库Databricks ML运行时.如果您使用Git和repo中的文件,您可以为本地环境中的数据和自定义库使用相同的相对路径。

请注意

默认情况下,由Databricks维护.ipynb扩展Jupyter笔记本与Databricks reppos同步,但自动转换Jupyter笔记本到Databricks笔记本时使用UI导入.Databricks笔记本保存. py扩展,因此可以在Git存储库中与Jupyter笔记本共存。