配置databricks作业设置
文章详细描述Obricks作业和IU作业任务学习使用DatabricksCLI编辑作业设置作业CLI.学习使用作业API作业API.
任务上可提供某些配置选项,单个任务上可提供其他选项举例说,最大并发运行只能在作业上设置,而参数则必须为每项任务定义
添加标签到作业
添加标签或密钥:值属性标签标签编辑作业时可使用标签过滤作业作业链表脱机举个例子,你可使用部门
标签筛选所有属于特定部门的工作
注解
作业标签设计不是为了存储敏感信息,如个人识别信息或密码,Databricks建议仅使用非敏感值标签
标签还传播到作业运行时创建的工作集群中,允许使用标签集群监控.
点击添加或编辑标签+标签中作业细节侧面板可添加标签为密钥值或标签要添加标签,请输入标签密钥并离开字段值传字段空
配置最大并发
点击编辑并发运行设置最大并行运行数此作业Databricks在尝试启动新运行时,如果作业已达最大主动运行数,则跳转运行置此值高于默认值一并同时执行多项相同作业举个例子,如果频繁调度触发作业并允许连续运行重迭或触发多运行因输入参数不同而异
配置预期完成时间或工作超时
可配置工作可选持续时间阈值,包括工作预期完成时间和工作最长完成时间配置持续阈值时点击设置持续时间阈值.
配置预期完成时间时输入预期持续时间警告字段内作业超出阈值时,可配置慢运行作业通知看吧配置慢运行或延迟作业通知.
配置最长完成时间时输入最长持续时间超时字段内如果任务这次不完全,Databricks设置状态为“超时化”并停止作业
定义任务依赖
可定义任务执行顺序取决于下拉菜单可设置此字段作业中一项或多项任务
注解
取决于任务只包含一项任务则不可见
配置任务依赖性创建指令反循环图任务执行,这是任务调度员表示执行顺序的常用方式举例说,考虑由四大任务构成的下列作业:
任务1根任务不依赖任何其他任务
任务2和任务3依赖任务1先完成
最后任务4依赖任务2和任务3成功完成
Databricks操作上层任务后再运行下游任务,并尽可能多并行运行任务下图显示这些任务处理顺序
配置依存库
依存库将在任务运行前安装到集群上您必须设置所有任务依赖性,以确保任务依赖性在运行启动前安装执行建议 in管理库依赖说明依存性
配置预期完成时间或任务超时
可配置任时阈值任务,包括任务预期完成时间和任务最长完成时间配置持续阈值时点击持续时间阈值.
配置任务预期完成时间时输入持续时间警告字段内任务超出阈值时事件触发任务缓慢运行时, 您可以使用此事件通知 。看吧配置慢运行或延迟作业通知.
配置最大完成时间时输入最长持续时间超时字段内如果任务这次不完成,Databricks设置状态为“Timedout”。