在三角洲上运行一个更新生活表管道

本文解释了一个三角洲生活表管道更新以及如何运行一个。

在您创建一个管道和准备运行它,你开始一个更新。管道更新如下:

  • 开始与正确的集群配置。

  • 发现所有的表和视图定义,并检查等任何分析错误无效的列名,失踪的依赖,和语法错误。

  • 创建或更新表和视图与可用的最新数据。

开始一个管道更新

砖开始管道更新提供了一些选项,包括以下:

三角洲的生活方式表更新表和视图

表和视图的更新,这些表是如何更新视图,取决于更新类型:

  • 刷新所有:所有生活表更新,以反映当前状态的输入数据来源。对于所有流表,新行添加到表中。

  • 全部刷新所有:所有生活表更新,以反映当前状态的输入数据来源。流表,三角洲生活表试图清除所有数据从每个表,然后加载所有数据流源。

  • 刷新选择的行为:刷新选择是一样刷新所有,但允许你只刷新选择表。选择生活表更新,以反映当前状态的输入数据来源。对于选定的流表,新行添加到表中。

  • 全部刷新选择的行为:完整的刷新选择是一样完整的刷新所有,但允许您执行全面刷新只选择表。选择生活表更新,以反映当前状态的输入数据来源。为选定的流表,δ生活表试图清除所有数据从每个表,然后加载所有数据流源。

现有的生活表,更新相同的行为作为一个SQL刷新物化视图。为新生活表,和SQL一样的行为创建操作。

开始为选择管道更新表

你可能想要再加工数据只在你的选择的表管道。例如,在开发期间,你只修改一个表,想减少测试时间,或管道更新失败,你想只刷新失败的表

请注意

您可以使用选择性刷新只有引发管道。

开始一个更新,刷新选择的表,在管道的细节页面:

  1. 点击选择表刷新。的选择表刷新对话框出现了。

    如果您没有看到选择表刷新按钮,确保管道的细节页面显示最新更新,更新完成。如果DAG不显示最新的更新,例如,因为更新失败,选择表刷新按钮不显示。

  2. 选择表刷新,点击每个表。所选表突出显示和标记。删除一个表的更新,再次单击表。

  3. 点击刷新选择

    请注意

    刷新选择按钮在括号中显示选择的表数量。

再加工的数据已经被吸收为选定的表,点击蓝色向下插入符号旁边的刷新选择按钮,点击全部刷新选择

开始一个管道更新失败的表

如果管道更新失败,因为在一个或多个表的错误管道图,你可以开始一个更新的失败表和任何下游依赖性。

请注意

排除表不刷新,即使他们依赖表失败。

更新失败的表上管道的细节页面,点击刷新失败的表

只更新选择失败的表:

  1. 点击纽扣旁边的刷新失败的表按钮,点击选择表刷新。的选择表刷新对话框出现了。

  2. 选择表刷新,点击每个表。所选表突出显示和标记。删除一个表的更新,再次单击表。

  3. 点击刷新选择

    请注意

    刷新选择按钮在括号中显示选择的表数量。

再加工的数据已经被吸收为选定的表,点击蓝色向下插入符号旁边的刷新选择按钮,点击全部刷新选择

连续与管道执行触发

如果管道使用触发成功刷新后的执行模式,系统停止处理管道中的所有表或选择的表一次,确保每个表的一部分更新更新更新开始时根据可获得的数据。

如果管道使用连续执行,三角洲生活表流程新数据到达数据源保持整个管道表新鲜。

执行模式是独立于类型的表被计算。物化视图和流表可以更新执行模式。在连续的执行模式,避免不必要的处理管道自动监控依赖三角洲表和执行更新只有当这些依赖表的内容已经改变了。

请注意

三角洲生活表运行时无法检测non-Delta数据源的变化。表仍然是定期更新,但更高的违约触发间隔,防止过度重新计算减速任何增量处理发生在集群上。

表比较数据管道执行模式

这些执行下表强调差异模式:

触发

连续

更新什么时候停止?

自动完成后。

持续运行,直到手动停止。

处理数据是什么?

数据更新时开始。

当它到达配置数据源的数据。

这个最好的数据新鲜度需求是什么?

数据更新运行每10分钟,每小时或每天。

数据更新所需的每10秒到几分钟。

引起管道可以减少资源消耗和费用自集群只运行足够长的时间来执行管道。然而,新数据不会被处理,直到管道被触发。连续管道需要一个总在集群中,这是更昂贵但减少处理延迟。

您可以配置的执行模式管道模式在设置选项。

如何选择管道边界

δ生活表管道可以更新一个表过程,许多具有依赖关系的表,很多表没有关系,或者多个indpendent流表的依赖关系。本节包含的考虑,以帮助确定如何打破你的管道。

大三角洲生活表管道有很多好处。这些包括以下几点:

  • 更有效地使用集群资源。

  • 减少管道的数量在你的工作区。

  • 减少工作流程编制的复杂性。

一些常见的建议应该如何分割处理管道包括以下:

  • 在团队边界分割功能。例如,您的团队可能维持管道将数据而数据分析师保持管道,转换后的数据进行分析。

  • 在特定于应用程序的功能边界分割降低耦合和促进共同功能的重用。

开发和生产模式

你可以通过切换优化管道执行开发和生产模式。使用三角洲生活表环境切换图标在管道UI按钮这两个模式之间进行切换。默认情况下,管道在开发模式下运行。

当您运行您的管道开发模式下,三角洲生活表系统如下:

  • 重用一个集群,以避免重启的开销。默认情况下,集群发展模式被启用时跑了两个小时。你可以改变这一切pipelines.clusterShutdown.delay设置在配置您的计算设置

  • 禁用管道重试,这样你就可以立即检测并修复错误。

在生产模式下,三角洲生活表系统如下:

  • 为特定的可恢复错误重新启动集群,包括内存泄漏和陈旧的凭证。

  • 重试时执行特定的错误,例如,一个失败的开始一个集群。

请注意

开发和生产模式之间轻松切换只控制集群和管道执行行为。存储位置和目标模式出版的目录表必须作为管道的设置和配置模式之间切换时不受影响。

安排一个管道

你可以手动触发管道或管道运行时间表砖工作。你可以创建一个单一管道的工作任务和进度直接在三角洲地区的生活表UI或添加一个管道任务界面的多任务的工作流程工作。

创建一个单一任务工作和安排工作在三角洲地区的生活表界面:

  1. 点击时间表>添加一个时间表。的时间表更新按钮显示现有的时间表,如果管道的数量是包含在一个或多个预定工作,例如,表(5)

  2. 输入一个名称的工作作业名字段。

  3. 设置时间表计划

  4. 指定时间、起始时间和时区。

  5. 配置一个或多个电子邮件地址来接收警报在管道开始,成功,或失败。

  6. 点击创建