迁移ETL管道砖

本文描述了所需的努力迁移提取、转换、加载(ETL)管道运行在其他数据系统数据砖。如果你是迁移到Apache火花代码,看看适应你的现有Apache为砖火花代码。

对于一般的信息从一个企业数据仓库lakehouse,明白了你的数据仓库到数据砖Lakehouse迁移。选项从铺三角洲湖,明白了数据迁移拼花湖三角洲湖。

你能上运行蜂巢管道砖吗?

大多数蜂巢工作负载可以运行在砖用最小的重构。火花的版本支持的SQL数据砖运行时允许许多HiveQL结构。看到Apache蜂巢的兼容性。砖包括一个蜂巢metastore默认情况下。大多数蜂巢迁移需要解决几个主要问题:

蜂巢SerDe需要更新使用Databricks-native文件编解码器。(改变DDL存储作为来使用使用砖SerDe)。
蜂巢udf必须被安装集群作为图书馆或重构本机火花。因为蜂巢udf已经在JVM中,他们可能对许多工作负载提供足够的性能。[_](/ udf / index.md # udf-efficiency)。
表的目录结构应该被改变,因为砖使用分区不同蜂巢。看到当在砖分区表。

如果你选择更新你的表在你最初的移民,三角洲湖的DDL和DML语句是不支持的。这些包括:

SQL工作负载从其他系统迁移到砖通常需要非常少的重构,根据系统的具体协议被用于源代码。砖使用三角洲湖作为默认在砖运行时8.4及以上的表格格式,所以创建表事务担保默认情况下。

火花SQL大多是ANSI-compliant,但在行为可能存在一些差异。看到砖Lakehouse如何不同于一个企业数据仓库吗?。

因为数据系统倾向于配置访问外部数据不同,大部分工作重构SQL ETL管道可能配置访问这些数据源,然后更新你的逻辑来使用这些新的连接。砖为连接到提供选项许多数据来源摄取。

砖提供了一个本机与印度生物技术部的集成,使您能够利用现有的印度生物技术部和很少的重构脚本。

三角洲生活表提供了一个优化Databricks-native声明的SQL语法用于创建、测试和部署管道。虽然您可以利用印度生物技术部在砖上,光重构代码以三角洲生活表可能会降低你的总成本经营你的管道砖。看到δ生活是什么表?。

的可扩展性和通用性定制serverless云功能很难提供一个共同的建议,但最常见的一个用例这些函数等待文件或数据出现在一个位置或消息队列,然后执行一些操作。而砖不支持复杂的逻辑触发工作负载的基于云环境,您可以使用结构化流结合工作流以增量的方式处理数据。

使用自动加载程序从云对象存储优化的数据摄入。结构化流可以处理的数据流媒体资源在实时。

ETL管道在其他语言中定义SQL, Apache火花,或蜂巢可能需要重构在砖上运行。砖有经验帮助客户从今天的大多数数据系统在使用,并且可能有可用资源来启动你的迁移工作。