管道在工作流运行一个三角洲生活表
您可以运行一个三角洲生活表管道作为数据处理工作流与数据砖的一部分工作,Apache气流或Azure数据工厂。
工作
你可以安排多个任务在砖工作来实现数据处理的工作流程。包括三角洲表管道的工作生活,使用管道任务时创建一个工作。
Apache气流
Apache气流是一个开源的bob下载地址解决方案管理和调度数据工作流。气流将工作流表示为有向无环图(无进取心的人)的操作。你定义一个工作流在Python文件和气流管理调度和执行。气流与砖的安装和使用的信息,明白了编排与Apache气流砖工作。
δ住表管道运行作为一个气流工作流的一部分,使用DatabricksSubmitRunOperator。
例子
下面的示例创建一个气流DAG触发更新的三角洲住表管道标识符8279 d543 - 063 c - 4 d63 - 9926 dae38e35ce8b
:
从气流进口DAG从airflow.providers.databricks.operators.databricks进口DatabricksSubmitRunOperator从airflow.utils.dates进口days_agodefault_args={“主人”:“气流”}与DAG(“dlt”,start_date=days_ago(2),schedule_interval=“@once”,default_args=default_args)作为dag:opr_run_now=DatabricksSubmitRunOperator(task_id=“run_now”,databricks_conn_id=“CONNECTION_ID”,pipeline_task={“pipeline_id”:“8279 d543 - 063 c - 4 d63 - 9926 dae38e35ce8b”})
取代CONNECTION_ID
的标识符气流连接你的工作空间。
保存这个例子气流/无进取心的人
目录,并使用气流UI视图和触发器DAG。使用三角洲住表界面查看管道更新的详细信息。
Azure数据工厂
Azure数据工厂是一个基于云的ETL服务,允许您编排工作流数据集成和转换。Azure数据工厂直接支持工作流运行砖任务,包括笔记本电脑、JAR任务和Python脚本。您还可以包括一个管道在工作流通过调用三角洲生活表API从Azure数据工厂网络活动。例如,触发一个管道从Azure数据更新工厂:
创建一个数据工厂或打开一个现有的数据工厂。
当创建完成后,打开的页面数据工厂并单击打开Azure数据工厂工作室瓷砖。Azure数据工厂用户界面出现。
创建一个新的Azure数据工厂管道通过选择管道从新下拉菜单在Azure数据工厂工作室用户界面。
在活动工具箱,扩大一般并拖动的网络活动管道画布。单击设置选项卡并输入以下值:
URL:
https:// < databricks-instance > / api / 2.0 /管道/ < pipeline-id > /更新
。取代
< databricks-instance >
与砖工作区实例名例如,1234567890123456.7.gcp.www.neidfyre.com
。取代
< pipeline-id >
管道标识符。方法:选择帖子从下拉。
头:点击+新。在的名字文本框中,输入
授权
。在价值文本框中,输入持票人< personal-access-token >
。取代
< personal-access-token >
用一个砖个人访问令牌。身体:通过额外的请求参数,输入一个包含参数的JSON文档。例如,开始一个更新和再加工的所有数据管道:
{“full_refresh”:"真正的"}
。如果没有额外的请求参数,输入空括号({}
)。
要测试Web活动,点击调试在管道工具栏数据工厂的UI。的输出和状态运行,包括错误,显示在输出Azure的标签数据工厂管道。使用三角洲住表界面查看管道更新的详细信息。