bob体育客户端下载平台的博客

宣布Databricks的Delta Live表(DLT)全面可用

分享这篇文章

今天,我们激动地宣布Delta Live Tables (DLT)在Amazon AWS和Microsoft Azure云上普遍可用(GA),并在谷歌云上公开可用!在这篇博客文章中,我们将探索DLT如何帮助领先公司的数据工程师和分析师轻松构建可生产的流媒体或批处理管道,大规模自动管理基础设施,并交付新一代数据、分析和人工智能应用程序。

客户赢得了简单的流媒体和批量ETL在湖屋

为ETL处理流和批处理工作负载是分析、数据科学和ML工作负载的基本举措——考虑到组织正在生成的大量数据,这一趋势正在继续加速。但是,在将这些原始的、非结构化的数据处理成干净的、有文档的、可信的信息之前,将其用于推动业务洞察是一个关键步骤。我们从客户那里了解到,将SQL查询转换为生产ETL管道通常涉及大量繁琐而复杂的操作工作。即使规模很小,数据工程师的大部分时间都花在工具和管理基础设施上,而不是转换。我们还从客户那里了解到,可观察性和治理是极其难以实现的,因此,它们经常被完全排除在解决方案之外。这导致花费大量时间在无差别的任务上,导致数据不可信、不可靠且成本高昂。

这就是我们构建Delta LiveTables的原因,这是第一个ETL框架,它使用简单的声明性方法来构建可靠的数据管道,并自动大规模管理基础设施,这样数据分析师和工程师就可以在工具上花费更少的时间,专注于从数据中获取价值。DLT允许数据工程师和分析人员通过加速开发和自动化复杂的操作任务来大幅减少实现时间。

Delta Live Tables已经为全球领先公司的生产用例提供了支持。从初创公司到企业,包括ADP、壳牌、H&R Block、Jumbo、Bread Finance、JLL等在内的400多家公司已经使用DLT来推动下一代自助式分析和数据应用程序:

  • ADP:“在ADP,我们正在将人力资源管理数据迁移到Lakehouse上的集成数据存储中。Delta Live Tables帮助我们的团队构建了质量控制,并且由于声明性api,只使用SQL支持批处理和实时,它使我们的团队在管理数据时节省了时间和精力。——ADP首席数据官Jack Berkowitz
  • Audantic:“我们的目标是继续利用机器学习开发创新产品,将我们的业务扩展到新的市场和地区。数据库是这一战略的基础部分,它将帮助我们更快、更有效地实现这一目标。Delta Live Tables使我们能够在规模和性能方面做一些我们以前无法做到的事情——将上市时间缩短了86%。我们现在每天运行我们的管道,而不是以前每周甚至每月运行一次,这是一个数量级的改进。——auantic首席信息官Joel Lowery
  • 外壳:“在壳牌,我们将所有传感器数据聚合到一个集成数据存储中。Delta Live Tables帮助我们的团队节省了管理(数万亿记录规模)数据的时间和精力,并不断提高我们的人工智能工程能力。这种能力增强了现有的湖屋架构,Databricks正在颠覆ETL和数据仓库市场,这对像我们这样的公司很重要。我们很高兴能继续与Databricks作为创新合作伙伴合作。——壳牌数据科学总经理Dan Jeavons
  • 面包融资:“Delta Live Tables支持协作,消除了数据工程资源障碍,允许我们的分析和BI团队在不了解Spark或Scala的情况下自助服务。事实上,我们的一名数据分析师——之前没有Databricks或Spark经验——能够在几个小时内构建一个DLT管道,将S3上的文件流转化为可用的探索性数据集,主要使用SQL。”——面包财经的高级数据工程师Christina Taylor

ETL处理的现代软件工程

DLT允许分析师和数据工程师使用SQL和Python轻松构建可用于生产的流或批处理ETL管道。它通过唯一地捕获完整数据管道的声明性描述来简化ETL开发,从而实时理解依赖关系并自动消除几乎所有固有的操作复杂性。使用DLT,工程师可以专注于传输数据,而不是操作和维护管道,并利用以下主要优势:

  • 加快ETL发展:与需要手工拼接代码片段以构建端到端管道的解决方案不同,DLT可以用SQL和Python声明性地表达整个数据流。此外,DLT本身就支持现代软件工程最佳实践,例如在与生产分离的环境中开发的能力,在部署之前轻松测试的能力,使用参数化、单元测试和文档部署和管理环境。因此,您可以简化ETL管道的开发、测试、部署、操作和监控,使用一流的结构来表示转换、CI/CD、sla和质量期望,并在单个API中无缝处理批处理和流处理。
  • 自动管理基础设施:DLT从头开始构建,以自动管理基础设施并自动化复杂和耗时的活动。考虑到不断变化的、不可预测的数据量,调整集群以获得最佳性能可能具有挑战性,并导致超额配置。DLT自动扩展计算以满足性能sla,方法是为用户提供设置最小和最大实例数的选项,并让DLT根据集群利用率调整集群大小。此外,业务流程、错误处理和恢复以及性能优化等任务都是自动处理的。使用DLT,您可以专注于数据转换,而不是操作。
  • 数据的信心:通过内置的质量控制、测试、监控和执行来交付可靠的数据,以确保准确和有用的BI、数据科学和ML。DLT通过使用称为期望的功能,包括对数据质量管理和监控工具的一流支持,从而轻松创建可信的数据源。期望有助于防止坏数据流入表,随着时间的推移跟踪数据质量,并提供工具,用细粒度的管道可观察性对坏数据进行故障排除,这样您就可以获得管道的高保真谱系图,跟踪依赖关系,并在所有管道中聚合数据质量指标。
  • 简化批处理和流式处理:为应用程序提供最新鲜/最新的数据,数据自优化和自动伸缩的数据管道,用于批处理或流处理,并选择最佳的性价比。与其他强迫您单独处理流和批处理工作负载的产品不同,DLT通过一个API支持任何类型的数据工作负载,因此数据工程师和分析师可以更快地构建云规模的数据管道,而不需要具备高级数据工程技能。

Databricks的Delta Live Tables仪表盘,现在可以在AWS、Azure Databricks和谷歌Cloud上使用。

自从DLT预览版发布以来,我们已经启用了一些企业功能和UX改进。我们已经扩展了UI,以便更容易地调度DLT管道、查看错误、管理acl、改进表沿袭视觉效果,并添加了数据质量可观察性UI和指标。此外,我们还发布了对变更数据捕获(CDC)能够高效、轻松地捕捉不断到达的数据,以及启动预览增强的自动缩放这为流工作负载提供了卓越的性能。

开始与三角洲Live表在湖屋

观看下面的演示,了解数据工程师和分析师使用DLT的便利性:

如果您已经是Databricks的客户,只需按照入门指南.阅读发行说明以了解更多关于此GA发行版中包含的内容。BOB低频彩如果您不是Databricks的现有客户,注册免费试用吧你可以查看我们的详细的DLT定价在这里

接下来是什么

注册我们的Delta Live Tables网络研讨会由Michael Armbrust和仲量联行主持4月14日,深入了解更多信息BOB低频彩Delta Live Tables在Databricks.com

免费试用Databricks

相关的帖子

看到所有bob体育客户端下载平台的博客的帖子