三角洲生活表快速入门

你可以很容易地创建并运行一个三角洲生活表使用砖笔记本的管道。本文演示了使用δ生活表管道数据集包含维基百科点击流数据:

  • 阅读原始JSON点击流数据到表中。

  • 阅读从原始数据表记录和使用三角洲生活表预期创建一个新表,其中包含清洗数据。

  • 利用洁净的记录数据表三角洲生活表查询,创建派生的数据集。

在这个快速入门,你:

  1. 创建一个新的笔记本和添加代码来实现管道。

  2. 创建一个新的管道使用笔记本工作。

  3. 启动一个更新管道的工作。

  4. 查看管道工作的结果。

需求

开始一个管道,你必须有集群创建权限或访问集群政策定义一个三角洲集群生活表。三角洲生活表运行时创建一个集群在它运行你的管道和失败如果你没有正确的权限。

创建一个笔记本

您可以使用一个例如笔记本电脑或者创建一个新的笔记本运行三角洲生活表管道:

  1. 去你的砖着陆页面并选择创建一个笔记本,或点击新图标在侧边栏并选择笔记本。的创建笔记本对话框出现了。

  2. 创建笔记本对话,给你的笔记本一个名称并选择PythonSQL默认的语言下拉菜单。你可以把集群设置为默认值。三角洲生活表运行时创建一个集群在它运行你的管道。

  3. 点击创建

  4. Python或SQL复制代码示例并粘贴到你的新笔记本。您可以将示例代码添加到笔记本的单细胞或多细胞。

    请注意

    • 你必须开始你的管道三角洲生活表用户界面选项卡的工作。点击运行图标运行您的管道将返回一个错误。

    • 当您创建一个管道与Python接口,默认情况下,表名是由函数名。例如,下面的Python示例创建了三个表命名clickstream_raw,clickstream_prepared,top_spark_referrers。你可以覆盖表名使用的名字参数。看到Python数据集

代码示例

进口dltpyspark.sql.functions进口*pyspark.sql.types进口*json_path=“/ databricks-datasets / wikipedia-datasets /数据2015 - 001 /点击流/ raw-uncompressed-json / _2_clickstream.json”@dlt(评论=“原始维基百科点击流数据集,从/ databricks-datasets摄取。”)defclickstream_raw():返回(火花格式(“json”)负载(json_path))@dlt(评论=“维基百科点击流数据清洗和准备分析。”)@dlt预计(“valid_current_page_title”,“current_page_title NOT NULL”)@dltexpect_or_fail(“valid_count”,“click_count > 0 ")defclickstream_prepared():返回(dlt(“clickstream_raw”)withColumn(“click_count”,expr(“铸(n为INT)”))withColumnRenamed(“curr_title”,“current_page_title”)withColumnRenamed(“prev_title”,“previous_page_title”)选择(“current_page_title”,“click_count”,“previous_page_title”))@dlt(评论=“一个表包含页面链接到Apache火花页面顶部。”)deftop_spark_referrers():返回(dlt(“clickstream_prepared”)过滤器(expr(“current_page_title = = Apache_Spark”))withColumnRenamed(“previous_page_title”,“referrer”)排序(desc(“click_count”))选择(“referrer”,“click_count”)限制(10))
创建刷新生活clickstream_raw评论“原始维基百科点击流数据集,从/ databricks-datasets摄取。”作为选择*json' /- - - - - -数据集/维基百科- - - - - -数据集/数据- - - - - -001年/点击流/- - - - - -未压缩的- - - - - -json/2015年_2_clickstreamjson;创建刷新生活clickstream_prepared(约束valid_current_page预计(current_page_title),约束valid_count预计(click_count>0)违反失败更新)评论“维基百科点击流数据清洗和准备分析。”作为选择curr_title作为current_page_title,(n作为INT)作为click_count,prev_title作为previous_page_title生活clickstream_raw;创建刷新生活top_spark_referers评论“一个表包含页面链接到Apache火花页面顶部。”作为选择previous_page_title作为介绍人,click_count生活clickstream_prepared在哪里current_page_title=“Apache_Spark”订单通过click_countDESC限制10;

创建一个管道

创建一个新的管道使用三角洲住表笔记本:

  1. 点击工作图标工作流在侧边栏,单击三角洲生活表选项卡,并单击创建管道

  2. 给管道名称并单击文件选择器图标选择一个笔记本。

  3. 可选的输入输出数据的存储位置的管道。系统使用一个默认的位置如果你离开存储位置空的。

  4. 选择触发管道模式

  5. 点击创建

系统显示管道的细节你点击后页面创建。您还可以访问您的管道中通过单击管道名称三角洲生活表选项卡。

启动管道

开始一个更新的新管道,单击三角洲生活表开始图标按钮在顶部面板。系统返回一个消息确认你的管道是开始。

开始管道

成功启动更新后,三角洲生活表系统:

  1. 开始一个集群使用一个集群配置由三角洲生活表系统。你也可以指定一个自定义的集群配置

  2. 创建任何表,并确保不存在任何现有表的模式是正确的。

  3. 最新的数据更新表。

  4. 关闭集群更新完成后。

您可以跟踪更新的进展通过查看事件日志的底部管道的细节页面。

查看管道事件日志

查看结果

您可以使用三角洲生活表用户界面查看管道处理细节。这包括管道图的可视化视图和模式,并记录处理等细节的数量记录处理和记录,验证失败。

查看管道图

管道初始化后,管道图出现。您可以使用鼠标来调整视图或三角洲生活表图按钮图标按钮面板右上角的图。

视图管线图

查看数据集信息

点击查看详细信息的数据集的数据集,包括数据集模式,数量的记录,处理和数据质量指标。

管道视图模式

查看处理细节

您还可以查看事件日志中的每个数据集的处理细节,包括处理和数据质量指标的数量记录。在事件日志的底部管道的细节页面,选择完成数据集,然后单击条目JSON选项卡。

查看事件日志详细信息

查看管道设置

点击设置查看和修改生成的配置管道。看到三角洲生活表设置有关配置设置。

发布数据集

你可以让管道输出数据用于查询通过发布砖metastore表:

  1. 单击设置按钮。

  2. 在输入数据库名称目标字段。

  3. 点击保存

  4. 单击三角洲生活表开始图标按钮来开始一个新的更新你的管道。

更新完成之后,您就可以查看数据库和表、查询数据,或者在下游应用程序中使用的数据。

维基百科查询数据

例如笔记本电脑

这些笔记本电脑提供Python和SQL示例,实现一个三角洲生活表管道:

  • 阅读原始JSON点击流数据到表中。

  • 阅读从原始数据表记录和使用三角洲生活表预期创建一个新表,其中包含清洗数据。

  • 利用洁净的记录数据表三角洲生活表查询,创建派生的数据集。

开始与达美住表Python笔记本

在新标签页打开笔记本

开始与达美住表的SQL的笔记本

在新标签页打开笔记本

笔记本中找到更多的例子delta-live-tables-notebooksGitHub库。