三角洲直播表是什么

Delta直播表是一个声明性框架,用于建设可靠、可维护并可测试的数据处理管道定义变换数据DeltaLive表管理任务整理、集群管理、监控、数据质量和报错处理

预览

特征显示公开预览.

与其使用数列Apachespark任务定义数据管道,倒不如定义流表和实化视图,系统应创建并更新Delta Live表管理数据转换DeltaLive表执行数据质量期望值允许定义期望数据质量并具体说明如何处理无法实现期望的记录

BOB低频彩深入了解搭建ETL管道带Delta直播表的好处Delta Live表产品页.

DeltaLive表数据集是什么

Delta Live表数据集流表、实化视图和视图保留为声明式查询结果下表描述处理每个数据集的方式:

数据集类型

记录如何通过定义查询处理

流表

每种记录完全处理一次假设只有附件源码

物化视图

记录按需处理以返回当前数据状态的准确结果物化视图应用于更新数据源、删除数据源或聚合数据源并用于变化数据抓取处理

视图

记录每次查询都处理中间变换和数据质量检验使用视图,不向公共数据集发布

下几节对每一数据集类型提供更详细的描述BOB低频彩深入学习选择数据集类型实现数据处理需求,见何时使用视图、实化视图和流表.

流表

A级流表三角形表附加支持流或增量数据处理流表允许处理增量数据集,每行只处理一次多数据集随时间而持续增长,流表对大多数吞入工作量都有好处。流表对管道最合适需要数据清新和低延缓性流表还可用于大规模变换,因为结果可随着新数据到来而增量计算,更新结果而无需全部重编更新所有源数据流表设计数据源

注解

流出表默认需要只附数据源,当流出源为需要更新或删除的另一流出表时,可使用跳过 ChangeCritits标志.

物化视图

A级实化视图直播表)视图结果预计物化视图根据管道更新进度刷新物化视图强 因为他们能处理输入中的任何变化管道更新和查询结果每次重新计算以反映上游数据集的变化,这些变化可能因守法、校正、聚合或通用CDC而发生Delta Live表像Delta表执行实化视图,但摘要清除高效应用更新的复杂性,使用户能够集中写查询

视图

全部视图databricks计算源数据集结果查询时使用缓存优化Delta Live表不发布目录视图,所以视图只能在定义内管道内引用视图作为中间查询有用,不接触终端用户或系统数据键推荐使用视图强制实施数据质量约束或变换并丰富数据集驱动多下游查询

宣布Delta直播表首个数据集

三角直播表为ython和SQL引入新语法开始Delta Live表语法时使用下列教程

注解

DeltaLive表从更新处理中分离数据集定义,DeltaLive表笔记本不拟交互执行看吧三角洲直播表管道.

三角洲直播表管道

A级管道主单元用DeltaLive表配置并运行数据处理工作流

管道中含有Python或SQL源文件宣布的实化视图和流表Delta Live表推导这些表之间的依存性,确保更新正确顺序三角直播表对每一数据集当前状态和期望状态进行比较并开始使用高效处理法创建或更新数据集

Delta直播表管道设置分两大类:

  1. 配置定义笔记本或文件集合源码库内使用DeltaLive表语法声明数据集

  2. 配置控制管道基础设施、更新处理方式和表格保存工作空间方式

多数配置是可选的,但有些配置需要谨慎关注,特别是在配置生产管道时。其中包括:

  • 数据流流出管道外时,您必须声明目标模式发布Hive元件或目标目录目标模式发布Unity目录

  • 数据访问权限通过集群配置执行确保集群有适当的权限配置数据源和目标存储位置中指定

详情使用 Python和SQL写管道源码见三角直播表SQL语言参考三角直播表ython语言参考.

更多管道设置配置见配置Delta直播表管道设置.

部署第一个管道并触发更新

处理Delta直播表前,必须配置管道管道配置后,可触发更新计算管道内每个数据集的结果开始使用Delta直播表管道教程:运行第一个Delta直播表管道.

管道更新

管道部署基础设施并重编数据状态更新.更新内容如下:

  • 启动集群配置正确

  • 发现定义的所有表和视图并检查分析错误,如无效列名、缺失依存关系和语法错误

  • 创建或更新表格和视图并存最新可用数据

管道可连续运行或调度视使用案例的成本和延时需求而定看吧运行Delta直播表管道更新.

内含Delta直播表

DeltaLive表支持数据bricks中所有可用数据源

Databricks建议使用流表处理多数摄取使用案例文件登陆云存储器Databricks推荐自动加载器可直接从大多数消息总线直接取Delta直播表数据

更多云存储配置信息见云存储配置.

非自加载器支持格式时,可使用 Python或SQL查询Apachespark支持的任何格式看吧带Delta直播表加载数据.

监控并强制数据质量

可使用期望值指定数据集内容数据质量控件异形CHECK传统数据库约束避免添加未实现约束记录,期望在处理数据失效质量需求时提供弹性灵活度允许处理并存储数据 即你期望为乱的数据 和数据必须满足严格质量要求看吧Delta直播表管理数据质量.

Delta直播表创建和管理方式

Databricks自动管理DeltaLive表创建表,确定需要如何处理更新以正确计算表当前状态并执行数项维护优化任务

对大多数操作,应允许Delta Live表处理所有更新、插入和删除目标表细节限制见保留手动删除或更新.

Delta直播表执行维护任务

三角直播表24小时内执行维护任务维护可提高查询性能并通过删除旧版表降低成本默认时系统全数执行OptimZE操作后继Vacoum.可设置ObjectimIZE换表pipelines.autoOptimize.managed=虚伪表属性面向表只有当管道更新工作在排定维护任务前24小时内运行时,才能执行维护任务。

为了确保维护集群拥有所需的存储位置访问权,你必须应用安全配置访问存储位置并存默认维护集群看吧配置计算设置.

约束

下限应用

  • 三角洲直播表创建更新

  • Delta Live表只能一次性定义,意指它只能成为Delta Live表管道单操作目标

  • 身份列不支持表实用性变换进化并可能在更新实现视图时重计正因如此,Databricks建议只使用Delta直播表内带流表的身份列看吧三角洲湖使用识别列.

  • abricks工作空间限100并发管道更新

追加资源