Delta Live Tables快速入门

您可以使用Databricks笔记本轻松创建和运行Delta Live Tables管道。本文演示了在包含维基百科点击流数据的数据集上使用Delta Live Tables管道:

  • 将原始JSON点击流数据读入一个表。

  • 从原始数据表中读取记录并使用Delta Live Tables预期创建一个包含已清理数据的新表。

  • 使用已清理数据表中的记录进行Delta Live Tables查询,以创建派生数据集。

在这个快速入门中,你:

  1. 创建一个新的笔记本,并添加代码来实现管道。

  2. 使用笔记本创建一个新的管道作业。

  3. 启动一个更新管道作业的。

  4. 查看管道作业的结果。

需求

要启动管道,你必须有创建集群权限或访问集群政策定义一个Delta Live Tables集群。Delta Live Tables运行时在运行您的管道之前创建一个集群,如果您没有正确的权限则会失败。

创建一个笔记本

你可以使用例如笔记本电脑或者创建一个新的笔记本来运行Delta Live Tables管道:

  1. 转到Databricks登录页并选择创建一个笔记本,或按新图标在侧栏中选择笔记本.的创建笔记本对话框出现了。

  2. 创建笔记本对话,给你的笔记本起个名字,然后选择PythonSQL默认的语言下拉菜单。你可以离开了集群设置为默认值。Delta Live Tables运行时在运行管道之前创建一个集群。

  3. 点击创建

  4. 复制Python或SQL代码示例然后粘贴到你的新笔记本上。您可以将示例代码添加到笔记本的单个单元格或多个单元格中。

    请注意

    • 你必须启动管道Delta活动表Jobs用户界面的选项卡。点击运行图标运行管道将返回一个错误。

    • 在使用Python接口创建管道时,默认情况下,表名由函数名定义。例如,下面的Python示例创建了三个名为clickstream_rawclickstream_prepared,top_spark_referrers.方法重写表名的名字参数。看到Python数据集

代码示例

进口dltpyspark.sql.functions进口pyspark.sql.types进口json_path“/ databricks-datasets / wikipedia-datasets /数据2015 - 001 /点击流/ raw-uncompressed-json / _2_clickstream.json”@dlt表格评论“原始维基百科点击流数据集,从/ databicks -datasets中摄取。”defclickstream_raw():返回火花格式“json”负载json_path))@dlt表格评论“维基百科点击流数据被清理并准备好进行分析。”@dlt预计“valid_current_page_title”"current_page_title不是NULL"@dltexpect_or_fail“valid_count”"点击计数> 0"defclickstream_prepared():返回dlt“clickstream_raw”withColumn“click_count”expr“CAST(n AS INT)”))withColumnRenamed“curr_title”“current_page_title”withColumnRenamed“prev_title”“previous_page_title”选择“current_page_title”“click_count”“previous_page_title”@dlt表格评论包含链接到Apache Spark页面的顶部页面的表。deftop_spark_referrers():返回dlt“clickstream_prepared”过滤器expr"current_page_title == 'Apache_Spark'"))withColumnRenamed“previous_page_title”“referrer”排序desc“click_count”))选择“referrer”“click_count”限制10
创建刷新生活表格clickstream_raw评论“原始维基百科点击流数据集,从/ databicks -datasets中摄取。”作为选择json`/-数据集/维基百科-数据集/数据-001/点击流/-未压缩的-json/2015_2_clickstreamjson创建刷新生活表格clickstream_prepared约束valid_current_page预计current_page_title),约束valid_count预计click_count>0违反失败更新评论“维基百科点击流数据被清理并准备好进行分析。”作为选择curr_title作为current_page_titlen作为INT作为click_countprev_title作为previous_page_title生活clickstream_raw创建刷新生活表格top_spark_referers评论包含链接到Apache Spark页面的顶部页面的表。作为选择previous_page_title作为介绍人click_count生活clickstream_prepared在哪里current_page_title“Apache_Spark”订单通过click_countDESC限制10

创建管道

使用Delta Live Tables笔记本创建一个新的管道:

  1. 点击工作图标工作流在侧栏中,单击Delta活动表选项卡,单击创建管道

  2. 为管道指定一个名称并单击文件选择器图标选择笔记本。

  3. 可选地输入来自管道的输出数据的存储位置。如果您离开,系统将使用默认位置存储位置空的。

  4. 选择触发管道模式

  5. 点击创建

系统显示管道的细节单击后的页面。创建.控件中的管道名称,也可以访问管道Delta活动表选项卡。

启动管道

要启动新管道的更新,请单击Delta活动表开始图标按钮在顶部面板。系统返回一条消息,确认管道正在启动。

开始管道

成功启动更新后,Delta Live Tables系统:

  1. 使用Delta Live Tables系统创建的集群配置启动集群。您也可以指定一个自定义集群配置

  2. 创建任何不存在的表,并确保模式对于任何现有表都是正确的。

  3. 使用最新的可用数据更新表。

  4. 更新完成时关闭集群。

控件底部的事件日志可以跟踪更新的进度管道的细节页面。

查看管道事件日志

查看结果

您可以使用Delta Live Tables用户界面查看管道处理的详细信息。这包括管道图和模式的可视化视图,以及记录处理细节,如处理的记录数量和验证失败的记录。

查看管道图

在管道初始化之后,将出现管道图。您可以使用鼠标调整视图或德尔塔活动表格图形按钮图标图形面板右上角的按钮。

查看管道图

查看数据集信息

单击数据集可查看该数据集的详细信息,包括数据集模式、处理的记录数量和数据质量指标。

查看管道模式

查看处理详情

您还可以查看事件日志中每个数据集的处理详细信息,包括处理的记录数量和数据质量指标。事件日志底部的管道的细节页,选择完成项,并单击JSON选项卡。

查看事件日志详情

查看管道设置

点击设置查看和修改管道生成的配置。看到Delta Live Tables设置有关配置设置的详细信息。

发布数据集

你可以通过将表格发布到Databricks metastore来实现管道输出数据的查询:

  1. 单击设置按钮。

  2. 中输入数据库名称目标字段。

  3. 点击保存

  4. 单击Delta活动表开始图标按钮,开始管道的新更新。

更新完成后,您可以查看数据库和表或在下游应用中使用。

查询维基百科数据

例如笔记本电脑

这些笔记本提供了Python和SQL示例,实现了Delta Live Tables管道:

  • 将原始JSON点击流数据读入表。

  • 从原始数据表中读取记录并使用Delta Live Tables预期创建一个包含已清理数据的新表。

  • 使用已清理数据表中的记录进行Delta Live Tables查询,以创建派生数据集。

开始使用Delta Live Tables Python笔记本

在新标签页打开笔记本

开始使用Delta Live Tables SQL笔记本

在新标签页打开笔记本

在这里可以找到更多示例笔记本_