将数据应用程序迁移到Databricks

本文介绍如何将现有数据应用程序迁移到Databricks。Databricks提供了一种统一的方法，允许您在一个平台上处理来自多个源系统的数据。bob体育客户端下载

有关平台功能的概述，请参见bob体育客户端下载什么是数据库?．

将ETL作业迁移到Databricks

只需几个步骤，就可以将用于从on-prem或云本地实现提取、转换和加载数据的Apache Spark作业迁移到Databricks。看到为Databricks调整现有的Apache Spark代码．

Databricks通过预先配置的开源集成、合作伙伴集成和企业产品产品扩展了Spark SQL的功能。bob下载地址如果您的ETL工作负载是用SQL或Hive编写的，那么只需进行最少的重构就可以迁移到Databricks。BOB低频彩了解更多Databricks SQL产品:

有关从各种源系统迁移到Databricks的具体说明，请参见将ETL管道迁移到Databricks．

用湖边小屋代替你的数据仓库

当工作负载围绕存储在湖屋中的数据对齐时，Databricks提供了最佳的价值和性能。许多企业数据栈包括数据湖和数据仓库，组织创建复杂的ETL工作流，试图使这些系统与准确及时的数据保持同步。湖屋允许您在查询和系统中利用存储在数据湖中的相同数据，而这些查询和系统通常依赖于数据仓库。关于湖边小屋的更多信息，请参见什么是Databricks Lakehouse?．

从数据仓库迁移到湖边小屋通常会降低数据架构和工作流的复杂性，但在完成这项工作时，需要牢记一些注意事项和最佳实践。看到将您的企业数据仓库迁移到Databricks Lakehouse．

统一您的ML、数据科学和分析工作负载

由于lakehouse通过表查询或文件路径提供了对基于云的数据文件的优化访问，因此您可以在数据的单个副本上进行ML、数据科学和分析。Databricks可以轻松地从开源和专有工具转移工作负载，并维护分析师和数据科学家使用的许多开源库的更新bob下载地址版本。

Jupyter笔记本中的Pandas工作负载可以同步并使用砖回购．砖提供当地人对熊猫的支持在所有Databricks运行时版本中，配置了许多流行的ML和深度学习库Databricks ML运行时．如果您使用Git和repo中的文件，您可以为本地环境中的数据和自定义库使用相同的相对路径。

请注意

默认情况下，由Databricks维护.ipynb扩展Jupyter笔记本与Databricks reppos同步，但自动转换Jupyter笔记本到Databricks笔记本时使用UI导入．Databricks笔记本保存. py扩展，因此可以在Git存储库中与Jupyter笔记本共存。