宣布推出Delta Live表:使可靠的数据工程变得简单
随着组织中的数据量、数据源和数据类型的增长,构建和维护可靠的数据……
2022年2月10日 在bob体育客户端下载平台的博客
当组织采用数据lakehouse在架构方面,数据工程师正在寻找有效的方法来捕获不断到达的数据。即使使用了正确的工具,实现这个常见的用例也可能具有挑战性——特别是在将操作数据库复制到他们的湖屋或为每次更新重新处理数据时。通过使用可靠的ETL框架来大规模地开发、监控、管理和操作数据管道,我们可以轻松地将变更数据捕获(CDC)实现到Delta Lake中Delta Live Tables (DLT)给用户:
Delta活动表使数据工程师能够简化数据管道的开发和维护,使数据团队能够自我服务和快速创新,提供内置的质量控制和监控,以确保准确和有用的BI,数据科学和ML,并让您通过对管道操作的深度可见性,自动错误处理和自动扩展功能的可靠性扩展。
使用DLT,数据工程师可以使用新的声明式轻松实现CDC将更改应用到API中,在SQL或Python中。这个新功能使ETL管道可以轻松地检测源数据更改,并将其应用于整个lakehouse的数据集。DLT以增量方式处理Delta Lake中的数据更改,在处理CDC事件时标记要插入、更新或删除的记录。下面的例子展示了使用新的API从客户表中识别和删除记录是多么容易:
创建流媒体直播表格customer_silver;申请更改成live.customer_silver从流(live.customer_bronze)键(id)应用作为删除当活跃的=0序列通过update_dt;
默认行为是从源插入CDC事件,方法是自动更新目标表中与指定键匹配的任何行,如果目标表中没有预先存在的匹配,则插入新行。DELETE事件也可以通过指定APPLY AS DELETE WHEN条件来处理。APPLY CHANGES INTO在所有地区都可用。有关更多信息,请参阅文档(Azure,AWS,GCP)或浏览例如笔记本电脑.