bob体育客户端下载平台的博客

Databricks Delta Live Tables宣布支持简化的变更数据捕获

分享这篇文章

当组织采用数据lakehouse在架构方面,数据工程师正在寻找有效的方法来捕获不断到达的数据。即使使用了正确的工具,实现这个常见的用例也可能具有挑战性——特别是在将操作数据库复制到他们的湖屋或为每次更新重新处理数据时。通过使用可靠的ETL框架来大规模地开发、监控、管理和操作数据管道,我们可以轻松地将变更数据捕获(CDC)实现到Delta Lake中Delta Live Tables (DLT)给用户:

  • 简单和方便:易于使用的api用于识别更改,使您的代码简单、方便和易于理解。
  • 效率:仅插入或更新已更改的行,具有高效的合并、更新和删除操作。
  • 可伸缩性:能够在低延迟支持下跨数万个表捕获和应用数据更改。

Delta活动表使数据工程师能够简化数据管道的开发和维护,使数据团队能够自我服务和快速创新,提供内置的质量控制和监控,以确保准确和有用的BI,数据科学和ML,并让您通过对管道操作的深度可见性,自动错误处理和自动扩展功能的可靠性扩展。

使用DLT,数据工程师可以使用新的声明式轻松实现CDC将更改应用到API中,在SQL或Python中。这个新功能使ETL管道可以轻松地检测源数据更改,并将其应用于整个lakehouse的数据集。DLT以增量方式处理Delta Lake中的数据更改,在处理CDC事件时标记要插入、更新或删除的记录。下面的例子展示了使用新的API从客户表中识别和删除记录是多么容易:

创建流媒体直播表格customer_silver;申请更改live.customer_silver流(live.customer_bronze)键(id)应用作为删除活跃的0序列通过update_dt

默认行为是从源插入CDC事件,方法是自动更新目标表中与指定键匹配的任何行,如果目标表中没有预先存在的匹配,则插入新行。DELETE事件也可以通过指定APPLY AS DELETE WHEN条件来处理。APPLY CHANGES INTO在所有地区都可用。有关更多信息,请参阅文档(AzureAWSGCP)或浏览例如笔记本电脑

免费试用Databricks

相关的帖子

看到所有bob体育客户端下载平台的博客的帖子