Delta Live Tables快速入门
您可以使用Databricks笔记本轻松创建和运行Delta Live Tables管道。本文演示了在包含维基百科点击流数据的数据集上使用Delta Live Tables管道:
将原始JSON点击流数据读入一个表。
从原始数据表中读取记录并使用Delta Live Tables预期创建一个包含已清理数据的新表。
使用已清理数据表中的记录进行Delta Live Tables查询,以创建派生数据集。
在这个快速入门中,你:
创建一个新的笔记本,并添加代码来实现管道。
使用笔记本创建一个新的管道作业。
启动一个更新管道作业的。
查看管道作业的结果。
需求
要启动管道,你必须有创建集群权限或访问集群政策定义一个Delta Live Tables集群。Delta Live Tables运行时在运行您的管道之前创建一个集群,如果您没有正确的权限则会失败。
创建一个笔记本
你可以使用例如笔记本电脑或者创建一个新的笔记本来运行Delta Live Tables管道:
转到Databricks登录页并选择创建一个笔记本,或按新在侧栏中选择笔记本.的创建笔记本对话框出现了。
在创建笔记本对话,给你的笔记本起个名字,然后选择Python或SQL从默认的语言下拉菜单。你可以离开了集群设置为默认值。Delta Live Tables运行时在运行管道之前创建一个集群。
点击创建.
复制Python或SQL代码示例然后粘贴到你的新笔记本上。您可以将示例代码添加到笔记本的单个单元格或多个单元格中。
代码示例
进口dlt从pyspark.sql.functions进口*从pyspark.sql.types进口*json_path=“/ databricks-datasets / wikipedia-datasets /数据2015 - 001 /点击流/ raw-uncompressed-json / _2_clickstream.json”@dlt.表格(评论=“原始维基百科点击流数据集,从/ databicks -datasets中摄取。”)defclickstream_raw():返回(火花.读.格式(“json”).负载(json_path))@dlt.表格(评论=“维基百科点击流数据被清理并准备好进行分析。”)@dlt.预计(“valid_current_page_title”,"current_page_title不是NULL")@dlt.expect_or_fail(“valid_count”,"点击计数> 0")defclickstream_prepared():返回(dlt.读(“clickstream_raw”).withColumn(“click_count”,expr(“CAST(n AS INT)”)).withColumnRenamed(“curr_title”,“current_page_title”).withColumnRenamed(“prev_title”,“previous_page_title”).选择(“current_page_title”,“click_count”,“previous_page_title”))@dlt.表格(评论=包含链接到Apache Spark页面的顶部页面的表。)deftop_spark_referrers():返回(dlt.读(“clickstream_prepared”).过滤器(expr("current_page_title == 'Apache_Spark'")).withColumnRenamed(“previous_page_title”,“referrer”).排序(desc(“click_count”)).选择(“referrer”,“click_count”).限制(10))
创建或刷新生活表格clickstream_raw评论“原始维基百科点击流数据集,从/ databicks -datasets中摄取。”作为选择*从json.`/砖-数据集/维基百科-数据集/数据-001/点击流/生-未压缩的-json/2015_2_clickstream.json`;创建或刷新生活表格clickstream_prepared(约束valid_current_page预计(current_page_title是不零),约束valid_count预计(click_count>0)在违反失败更新)评论“维基百科点击流数据被清理并准备好进行分析。”作为选择curr_title作为current_page_title,投(n作为INT)作为click_count,prev_title作为previous_page_title从生活.clickstream_raw;创建或刷新生活表格top_spark_referers评论包含链接到Apache Spark页面的顶部页面的表。作为选择previous_page_title作为介绍人,click_count从生活.clickstream_prepared在哪里current_page_title=“Apache_Spark”订单通过click_countDESC限制10;
创建管道
使用Delta Live Tables笔记本创建一个新的管道:
点击工作流在侧栏中,单击Delta活动表选项卡,单击创建管道.
为管道指定一个名称并单击选择笔记本。
可选地输入来自管道的输出数据的存储位置。如果您离开,系统将使用默认位置存储位置空的。
选择触发为管道模式.
点击创建.
系统显示管道的细节单击后的页面。创建.控件中的管道名称,也可以访问管道Delta活动表选项卡。
启动管道
要启动新管道的更新,请单击按钮在顶部面板。系统返回一条消息,确认管道正在启动。
成功启动更新后,Delta Live Tables系统:
使用Delta Live Tables系统创建的集群配置启动集群。您也可以指定一个自定义集群配置.
创建任何不存在的表,并确保模式对于任何现有表都是正确的。
使用最新的可用数据更新表。
更新完成时关闭集群。
控件底部的事件日志可以跟踪更新的进度管道的细节页面。
查看管道设置
点击设置查看和修改管道生成的配置。看到Delta Live Tables设置有关配置设置的详细信息。
发布数据集
你可以通过将表格发布到Databricks metastore来实现管道输出数据的查询:
单击设置按钮。
中输入数据库名称目标字段。
点击保存.
单击按钮,开始管道的新更新。
更新完成后,您可以查看数据库和表或在下游应用中使用。