管道在工作流运行一个三角洲生活表

您可以运行一个三角洲生活表管道作为数据处理工作流与数据砖的一部分工作,Apache气流或Azure数据工厂。

工作

你可以安排多个任务在砖工作来实现数据处理的工作流程。包括三角洲表管道的工作生活,使用管道任务时创建一个工作

Apache气流

Apache气流是一个开源的bob下载地址解决方案管理和调度数据工作流。气流将工作流表示为有向无环图(无进取心的人)的操作。你定义一个工作流在Python文件和气流管理调度和执行。气流与砖的安装和使用的信息,明白了编排与Apache气流砖工作

δ住表管道运行作为一个气流工作流的一部分,使用DatabricksSubmitRunOperator

需求

下面的要求使用气流支持三角洲生活表:

  • 气流2.1.0版或更高版本。

  • 砖提供者包版本2.1.0的或更高版本。

例子

下面的示例创建一个气流DAG触发更新的三角洲住表管道标识符8279 d543 - 063 c - 4 d63 - 9926 dae38e35ce8b:

气流进口DAGairflow.providers.databricks.operators.databricks进口DatabricksSubmitRunOperatorairflow.utils.dates进口days_agodefault_args={“主人”:“气流”}DAG(“dlt”,start_date=days_ago(2),schedule_interval=“@once”,default_args=default_args)作为dag:opr_run_now=DatabricksSubmitRunOperator(task_id=“run_now”,databricks_conn_id=“CONNECTION_ID”,pipeline_task={“pipeline_id”:“8279 d543 - 063 c - 4 d63 - 9926 dae38e35ce8b”})

取代CONNECTION_ID的标识符气流连接你的工作空间。

保存这个例子气流/无进取心的人目录,并使用气流UI视图和触发器DAG。使用三角洲住表界面查看管道更新的详细信息。

Azure数据工厂

Azure数据工厂是一个基于云的ETL服务,允许您编排工作流数据集成和转换。Azure数据工厂直接支持工作流运行砖任务,包括笔记本电脑、JAR任务和Python脚本。您还可以包括一个管道在工作流通过调用三角洲生活表API从Azure数据工厂网络活动。例如,触发一个管道从Azure数据更新工厂:

  1. 创建一个数据工厂或打开一个现有的数据工厂。

  2. 当创建完成后,打开的页面数据工厂并单击打开Azure数据工厂工作室瓷砖。Azure数据工厂用户界面出现。

  3. 创建一个新的Azure数据工厂管道通过选择管道下拉菜单在Azure数据工厂工作室用户界面。

  4. 活动工具箱,扩大一般并拖动的网络活动管道画布。单击设置选项卡并输入以下值:

    请注意

    作为一个安全最佳实践进行身份验证时使用自动化工具,系统、脚本和应用程序,砖建议您使用OAuth令牌或个人访问令牌属于服务主体而不是用户工作区。为服务主体,创建令牌管理个人访问令牌服务主体

    • URL:https:// < databricks-instance > / api / 2.0 /管道/ < pipeline-id > /更新

      取代< databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

      取代< pipeline-id >管道标识符。

    • 方法:选择帖子从下拉。

    • :点击+新。在的名字文本框中,输入授权。在价值文本框中,输入持票人< personal-access-token >

      取代< personal-access-token >用一个砖个人访问令牌

    • 身体:通过额外的请求参数,输入一个包含参数的JSON文档。例如,开始一个更新和再加工的所有数据管道:{“full_refresh”:"真正的"}。如果没有额外的请求参数,输入空括号({})。

要测试Web活动,点击调试在管道工具栏数据工厂的UI。的输出和状态运行,包括错误,显示在输出Azure的标签数据工厂管道。使用三角洲住表界面查看管道更新的详细信息。

提示

一种常见的工作流需求是开始一个任务在完成前一个任务。因为δ生活表更新请求asynchronous-the请求返回后开始更新但在Azure数据更新完成任务之前工厂管道与依赖于三角洲住表更新必须等待更新完成。一个选项来添加一个等待更新完成直到活动网络活动,触发后三角洲生活表更新。直到活动:

  1. 添加一个等待活动等待更新完成配置的秒数。

  2. 添加一个Web活动后,等待活动使用三角洲生活表获得更新的细节请求的状态更新。的状态在响应返回更新的当前状态,包括是否已完成。

  3. 使用的价值状态字段设置,直到终止条件的活动。你也可以使用设置变量的活动添加一个管道变量的基础上状态价值和使用这个变量的终止条件。