乔布斯API 2.0

就业API允许您创建、编辑和删除工作。一个请求到工作的最大允许大小API是10 mb。

对细节的更新工作API,支持多个任务的编排与砖工作,明白了乔布斯API更新

警告

千万不要硬编码秘密或者存储在纯文本。使用秘密的API管理的秘密砖CLI。使用秘密效用(dbutils.secrets)引用在笔记本和工作秘密。

请注意

如果你收到一个500级的错误做乔布斯API请求时,砖建议重试请求10分钟(重试之间至少30秒时间间隔)。

重要的

访问数据砖REST api,你必须进行身份验证

创建

端点

HTTP方法

2.0 / /创建工作

帖子

创建一个新工作。

例子

这个示例创建一个工作运行JAR任务10:15pm每晚。

请求

curl——netrc POST请求\https:// < databricks-instance > . . / api / 2.0 /工作/创建\——数据@create-job.json\|金桥。

create-job.json:

{“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.3.x-scala2.12”,“node_type_id”:“r3.xlarge”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“webhook_notifications”:{“on_start”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_success”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_failure”:[]},“notification_settings”:{“no_alert_for_skipped_runs”:,“no_alert_for_canceled_runs”:,“alert_on_last_attempt”:},“timeout_seconds”:3600年,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • 的内容create-job.json与字段,适合您的解决方案。

这个示例使用. netrc文件和金桥

响应

{“job_id”:1}

请求结构

重要的

  • 当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。

  • 当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。

字段名

类型

描述

existing_cluster_idnew_cluster

字符串NewCluster

如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。

如果new_cluster,集群的描述将被创建为每个运行。

如果指定一个PipelineTask,这个领域可以是空的。

notebook_taskspark_jar_taskspark_python_taskspark_submit_taskpipeline_taskrun_job_task

NotebookTaskSparkJarTaskSparkPythonTaskSparkSubmitTaskPipelineTaskRunJobTask

如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。

如果spark_jar_task,表明这项工作应该运行一个罐子里。

如果spark_python_task,表明这项工作应该运行Python文件。

如果spark_submit_task,表明这项工作应该发起的火花提交脚本。

如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。

如果run_job_task,表明这项工作应该运行另一份工作。

的名字

字符串

一个可选的名字。默认值是无标题的

一个数组的图书馆

一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。

email_notifications

JobEmailNotifications

一组可选的电子邮件地址通知当运行这个工作开始和完成时,这项工作被删除。默认行为是不发送任何电子邮件。

webhook_notifications

WebhookNotifications

一组可选的系统通知目的地当这个工作开始运行,完成,或失败。

notification_settings

JobNotificationSettings

使用可选的通知设置在发送通知的email_notificationswebhook_notifications对于这个工作。

timeout_seconds

INT32

一个可选的超时应用于每次运行的工作。默认行为是没有超时。

max_retries

INT32

一个可选的最大重试失败的次数。跑步被认为是不成功的,如果它完成的失败的result_state或INTERNAL_ERRORlife_cycle_state。值1的意思是无限期重试,值0意味着永不重试。默认行为是不重试。

min_retry_interval_millis

INT32

之间的一个可选的最小间隔时间以毫秒为单位的失败和随后的重试跑。默认行为是成功运行立即重试。

retry_on_timeout

BOOL

一个可选的策略来指定是否重试时超时工作。默认行为是在超时不重试。

时间表

CronSchedule

一个可选的周期安排这项工作。默认行为是工作运行时通过点击触发现在运行在工作界面或发送一个API请求runNow

max_concurrent_runs

INT32

一个可选的最大允许并发运行的作业的数量。

设置这个值,如果你希望能够执行多个并发运行相同的作业。这是有用的,例如如果你频繁触发你的工作在一个计划,希望允许连续运行相互重叠,或如果你想触发多个运行不同的输入参数。

这个设置只影响新的运行。例如,假设工作的并发是4和有4个并发活动。然后设置并发3不会杀死任何活动运行的。然而,从那时起,新的运行跳过除非有少于3活跃。

这个值不能超过1000。这个值设置为0会引起新的运行跳过。默认行为是只允许1并发运行。

响应结构

字段名

类型

描述

job_id

INT64

规范标识符为新创建的工作。

列表

端点

HTTP方法

2.0 /工作/列表

得到

列出所有工作。

例子

请求

curl——netrc请求\https:// < databricks-instance > . . / api / 2.0 /工作/列表\|金桥。

取代< databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

这个示例使用. netrc文件和金桥

响应

{“工作”:({“job_id”:1,“设置”:{“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.3.x-scala2.12”,“node_type_id”:“r3.xlarge”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”,“pause_status”:“停顿”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}},“created_time”:1457570074236}]}

响应结构

字段名

类型

描述

工作

一个数组的工作

工作列表。

删除

端点

HTTP方法

2.0 /工作/删除

帖子

删除一个工作,发送一封电子邮件到指定的地址JobSettings.email_notifications。如果发生任何行动工作已经被移除。工作是删除之后,它的细节和其运行的历史是可见的UI或API的工作。这份工作是保证完成这个请求删除。然而,运行前活动收到这个请求可能仍然是活跃的。他们将终止异步。

例子

curl——netrc POST请求\https:// < databricks-instance > . . / api / 2.0 /工作/删除\——数据”{“job_id”: <作业id >}’

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • <作业id >例如,与工作的ID123年

这个示例使用. netrc文件。

请求结构

字段名

类型

描述

job_id

INT64

工作的规范标识符删除。这个字段是必需的。

得到

端点

HTTP方法

2.0 /工作/

得到

检索信息的一个工作。

例子

请求

curl——netrc请求\“https:// < databricks-instance > . . / api / 2.0 /工作/ ? job_id = <作业id > '\|金桥。

或者:

curl——netrc\https:// < databricks-instance > . . / api / 2.0 /工作/\——数据job_id=<作业id >\|金桥。

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • <作业id >例如,与工作的ID123年

这个示例使用. netrc文件和金桥

响应

{“job_id”:1,“设置”:{“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.3.x-scala2.12”,“node_type_id”:“r3.xlarge”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“webhook_notifications”:{“on_start”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_success”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_failure”:[]},“notification_settings”:{“no_alert_for_skipped_runs”:,“no_alert_for_canceled_runs”:,“alert_on_last_attempt”:},“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”,“pause_status”:“停顿”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}},“created_time”:1457570074236}

请求结构

字段名

类型

描述

job_id

INT64

工作的规范标识符检索信息。这个字段是必需的。

响应结构

字段名

类型

描述

job_id

INT64

这个工作的规范标识符。

creator_user_name

字符串

造物主的用户名。这个领域不会包含在响应中如果用户已经删除。

设置

JobSettings

和它的所有运行设置这个工作。这些设置可以更新使用重置更新端点。

created_time

INT64

这个工作的时间成立于时代毫秒(毫秒因为1/1/1970 UTC)。

重置

端点

HTTP方法

2.0 /工作/重置

帖子

覆盖所有设置为一个特定的工作。使用更新端点设置部分更新工作。

例子

这个示例请求使工作2相同的工作1创建的例子。

curl——netrc POST请求\https:// < databricks-instance > . . / api / 2.0 /工作/重置\——数据@reset-job.json\|金桥。

reset-job.json:

{“job_id”:2,“new_settings”:{“名称”:“夜间模式”培训,“new_cluster”:{“spark_version”:“7.3.x-scala2.12”,“node_type_id”:“r3.xlarge”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“webhook_notifications”:{“on_start”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_success”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_failure”:[]},“notification_settings”:{“no_alert_for_skipped_runs”:,“no_alert_for_canceled_runs”:,“alert_on_last_attempt”:},“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美国/ Los_Angeles”,“pause_status”:“停顿”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}}

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • 的内容reset-job.json与字段,适合您的解决方案。

这个示例使用. netrc文件和金桥

请求结构

字段名

类型

描述

job_id

INT64

工作的规范标识符重置。这个字段是必需的。

new_settings

JobSettings

新设置的工作。这些设置完全取代旧的设置。

修改字段JobSettings.timeout_seconds应用于活跃的运行。更改其他领域应用于未来只运行。

更新

端点

HTTP方法

2.0 /工作/更新

帖子

添加、更改或删除现有工作的特定设置。使用重置端点覆盖所有工作设置。

例子

这个示例请求添加库和删除电子邮件通知设置中定义的工作1创建的例子。

curl——netrc POST请求\https:// < databricks-instance > . . / api / 2.0 /工作/更新\——数据@update-job.json\|金桥。

update-job.json:

{“job_id”:1,“new_settings”:{“existing_cluster_id”:“1201 -我的集群”,“email_notifications”:{“on_start”:(“someone@example.com”),“on_success”:[],“on_failure”:[]}},“fields_to_remove”:(“库”]}

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • 的内容update-job.json与字段,适合您的解决方案。

这个示例使用. netrc文件和金桥

请求结构

场的

类型

描述

job_id

INT64

规范标识符的更新工作。这个字段是必需的。

new_settings

JobSettings

新设置的工作。任何顶级字段中指定new_settings完全取代。不支持嵌套部分更新字段。

修改字段JobSettings.timeout_seconds应用于活跃的运行。更改其他领域应用于未来只运行。

fields_to_remove

一个数组的字符串

删除顶级字段设置的工作。移除不支持嵌套的字段。这个字段是可选的。

现在运行

重要的

  • 你只能创造就业数据科学与工程工作区或一个机器学习的工作区。

  • 1000个并发任务工作空间是有限的。一个429年许多请求当你返回请求的响应不能立即开始运行。

  • 就业人数工作区可以创建在10000年一个小时是有限的(包括”提交”)。REST API创建的这个限制也会影响就业和笔记本工作流。

端点

HTTP方法

2.0 /工作/运行

帖子

现在运行工作并返回run_id引发的运行。

提示

如果您调用创建在一起现在运行,你可以使用运行提交端点相反,它允许您直接提交你的工作负载,而无需创建一个工作。

例子

curl——netrc POST请求\https:// < databricks-instance > . . / api / 2.0 /工作/运行\——数据@run-job.json\|金桥。

run-job.json:

一个示例请求一个笔记本工作:

{“job_id”:1,“notebook_params”:{“名称”:“john doe”,“年龄”:“35”}}

请求一个例子为一罐工作:

{“job_id”:2,“jar_params”:(“john doe”,“35”]}

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • 的内容run-job.json与字段,适合您的解决方案。

这个示例使用. netrc文件和金桥

请求结构

字段名

类型

描述

job_id

INT64

jar_params

一个数组的字符串

参数的工作与JAR任务列表,如“jar_params”:["约翰母鹿”,“35”)。参数将用于调用中指定的主类的主要功能火花JAR任务。如果未指定现在,它将默认为一个空列表。jar_params不能结合notebook_params指定。这个字段(即的JSON表示。{“jar_params”:["约翰母鹿”、“35”)})不能超过10000个字节。

notebook_params

的地图ParamPair

与笔记本从键值映射工作任务,如。“notebook_params”:{" name ":“约翰母鹿”,“年龄”:“35”}。地图被传递到笔记本,可以通过dbutils.widgets.get函数。

如果未指定现在,触发运行使用工作的基础参数。

你不能指定notebook_params结合jar_params。

这个字段(即的JSON表示。{" notebook_params ":{“名称”:“约翰母鹿”、“年龄”:“35”}})不能超过10000个字节。

python_params

一个数组的字符串

与Python任务工作的参数列表,如“python_params”:["约翰母鹿”,“35”)。参数将被传递给Python文件作为命令行参数。如果指定在现在,它将覆盖工作设置中指定的参数。这个字段(即的JSON表示。{“python_params”:["约翰母鹿”、“35”)})不能超过10000个字节。

spark_submit_params

一个数组的字符串

工作引发的参数列表提交的任务,例如“spark_submit_params”:["——阶级”,“org.apache.spark.examples.SparkPi”)。将参数传递给脚本spark-submit作为命令行参数。如果指定在现在,它将覆盖工作设置中指定的参数。这一领域的JSON表示不能超过10000个字节。

idempotency_token

字符串

一个可选的标记来保证工作运行的幂等性请求。如果运行提供的令牌已经存在,请求不创建一个新的运行但回报现有运行的ID。如果运行提供的令牌被删除,返回一个错误。

如果你指定幂等性标记,当失败的时候你可以重试,直到请求成功。砖保证启动一个运行与幂等性令牌。

这个令牌必须有最多64个字符。

有关更多信息,请参见如何确保幂等性工作

响应结构

字段名

类型

描述

run_id

INT64

新触发运行的全球惟一的ID。

number_in_job

INT64

序列号的运行在所有的运行工作。

运行提交

重要的

  • 你只能创造就业数据科学与工程工作区或一个机器学习的工作区。

  • 1000个并发任务工作空间是有限的。一个429年许多请求当你返回请求的响应不能立即开始运行。

  • 就业人数工作区可以创建在10000年一个小时是有限的(包括”提交”)。REST API创建的这个限制也会影响就业和笔记本工作流。

端点

HTTP方法

2.0 /工作/运行/提交

帖子

提交一次运行。这个端点允许你提交一个工作负载直接创建一个工作。使用工作/运行/API来检查工作提交后的运行状态。

例子

请求

curl——netrc POST请求\https:// < databricks-instance > . . / api / 2.0 /工作/运行/提交\——数据@submit-job.json\|金桥。

submit-job.json:

{“run_name”:“我的任务”火花,“new_cluster”:{“spark_version”:“7.3.x-scala2.12”,“node_type_id”:“r3.xlarge”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“库”:({“罐子”:“dbfs: / my-jar.jar”},{“专家”:{“坐标”:“org.jsoup: jsoup: 1.7.2”}}),“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • 的内容submit-job.json与字段,适合您的解决方案。

这个示例使用. netrc文件和金桥

响应

{“run_id”:123年}

请求结构

重要的

  • 当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。

  • 当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。

字段名

类型

描述

existing_cluster_idnew_cluster

字符串NewCluster

如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。

如果new_cluster,集群的描述将被创建为每个运行。

如果指定一个PipelineTask,那么这个字段可以是空的。

notebook_taskspark_jar_taskspark_python_taskspark_submit_taskpipeline_taskrun_job_task

NotebookTaskSparkJarTaskSparkPythonTaskSparkSubmitTaskPipelineTaskRunJobTask

如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。

如果spark_jar_task,表明这项工作应该运行一个罐子里。

如果spark_python_task,表明这项工作应该运行Python文件。

如果spark_submit_task,表明这项工作应该发起的火花提交脚本。

如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。

如果run_job_task,表明这项工作应该运行另一份工作。

run_name

字符串

一个可选的名称。默认值是无标题的

webhook_notifications

WebhookNotifications

一组可选的系统通知目的地当这个工作开始运行,完成,或失败。

notification_settings

JobNotificationSettings

使用可选的通知设置在发送通知的webhook_notifications运行。

一个数组的图书馆

一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。

timeout_seconds

INT32

一个可选的超时应用于每次运行的工作。默认行为是没有超时。

idempotency_token

字符串

一个可选的标记来保证工作运行的幂等性请求。如果运行提供的令牌已经存在,请求不创建一个新的运行但回报现有运行的ID。如果运行提供的令牌被删除,返回一个错误。

如果你指定幂等性标记,当失败的时候你可以重试,直到请求成功。砖保证启动一个运行与幂等性令牌。

这个令牌必须有最多64个字符。

有关更多信息,请参见如何确保幂等性工作

响应结构

字段名

类型

描述

run_id

INT64

规范标识符为新提交的运行。

运行清单

端点

HTTP方法

2.0 /工作/运行/列表

得到

运行在开始时间降序排列的列表。

请注意

运行之后自动删除60天。如果你想引用它们超出60天,到期前你应该保存古老的运行结果。出口使用UI,明白了出口工作运行结果。出口使用工作API,明白了经营出口

例子

请求

curl——netrc请求\“https:// < databricks-instance > . . / api / 2.0 /工作/运行/列表? job_id = <作业id > &active_only = <是非题>抵消= <抵消>限制= <限制> &run_type = < run-type > '\|金桥。

或者:

curl——netrc\https:// < databricks-instance > . . / api / 2.0 /工作/运行/列表\——数据“job_id = <作业id > &active_only = <是非题>抵消= <抵消>限制= <限制> &run_type = < run-type > '\|金桥。

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • <作业id >例如,与工作的ID123年

  • 《是非题》真正的

  • <抵消>抵消价值。

  • <限制>限制价值。

  • < run-type >run_type价值。

这个示例使用. netrc文件和金桥

响应

{“运行”:({“job_id”:1,“run_id”:452年,“number_in_job”:5,“状态”:{“life_cycle_state”:“运行”,“state_message”:“执行动作”},“任务”:{“notebook_task”:{“notebook_path”:“/用户/ donald@duck.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“end_time”:1457570075149,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“触发”:“周期”}),“has_more”:真正的}

请求结构

字段名

类型

描述

active_onlycompleted_only

BOOLBOOL

如果active_only真正的,仅包括活跃的运行结果;否则,列出活动和运行完成。一个活跃的是跑等待,运行,或终止RunLifecycleState。该字段不能真正的当completed_only真正的

如果completed_only真正的,只有完成中包括运行结果;否则,列出活动和运行完成。该字段不能真正的当active_only真正的

job_id

INT64

的工作运行。如果省略,就业服务将从所有工作列表。

抵消

INT32

第一次运行返回的抵消,相对于最近的运行。

限制

INT32

跑到返回的数量。这个值应大于0小于1000。默认值是20。如果请求指定的极限0,最大限度的服务将使用。

run_type

字符串

跑到返回的类型。运行类型的描述,请参阅运行

响应结构

字段名

类型

描述

运行

一个数组的运行

运行的一个列表,从最近的开始。

has_more

BOOL

如果这是真的,额外的匹配滤波器可用于提供清单。

运行得到

端点

HTTP方法

2.0 /工作/运行/

得到

检索的元数据。

请注意

运行之后自动删除60天。如果你想引用它们超出60天,到期前你应该保存古老的运行结果。出口使用UI,明白了出口工作运行结果。出口使用工作API,明白了经营出口

例子

请求

curl——netrc请求\“https:// < databricks-instance > . . / api / 2.0 /工作/运行/ ? run_id = <运行id > '\|金桥。

或者:

curl——netrc\https:// < databricks-instance > . . / api / 2.0 /工作/运行/\——数据run_id=<运行id >\|金桥。

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • <运行id >例如,与运行的ID123年

这个示例使用. netrc文件和金桥

响应

{“job_id”:1,“run_id”:452年,“number_in_job”:5,“状态”:{“life_cycle_state”:“运行”,“state_message”:“执行动作”},“任务”:{“notebook_task”:{“notebook_path”:“/用户/ someone@example.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“end_time”:1457570075149,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“触发”:“周期”}

请求结构

字段名

类型

描述

run_id

INT64

规范标识符的运行检索元数据。这个字段是必需的。

响应结构

字段名

类型

描述

job_id

INT64

规范标识符包含这个运行的工作。

run_id

INT64

规范化运行的标识符。这个ID是独特的在所有运行的所有工作。

number_in_job

INT64

序列号的运行在所有的运行工作。这个值从1开始。

original_attempt_run_id

INT64

如果这是之前运行的重试尝试运行,该字段包含原文的run_id尝试;否则,它是run_id一样。

状态

RunState

运行的结果和生命周期状态。

时间表

CronSchedule

触发这个运行的cron调度如果是引发的周期性调度程序。

任务

JobTask

执行的任务运行,如果任何。

cluster_spec

ClusterSpec

工作的快照的集群规范这个运行时创建的。

cluster_instance

ClusterInstance

集群用于此运行。如果指定运行使用一个新的集群,这一领域将一旦就业服务请求的集群运行。

overriding_parameters

RunParameters

用于此运行的参数。

start_time

INT64

这种运行成立于时代的时间毫秒(毫秒因为1/1/1970 UTC)。这可能不是工作任务的时候开始执行,例如,如果工作是计划一个新的集群上运行,这是集群创建调用的时间。

end_time

INT64

这个跑在时代结束毫秒的时间(单位为毫秒自1/1/1970 UTC)。这个字段将被设置为0,如果工作仍在运行。

setup_duration

INT64

时间以毫秒为单位设置集群。运行,运行在新集群的集群创建时间,运行现有的集群上运行这个时间应该很短。总运行时间的总和setup_duration,execution_duration,cleanup_duration。的setup_duration字段设置为0多任务工作运行。多任务工作运行的总时间的价值run_duration字段。

execution_duration

INT64

的时间,以毫秒为单位执行JAR中的命令或笔记本,直到他们完成,失败了,超时,被取消,或者遇到了一个意想不到的错误。总运行时间的总和setup_duration,execution_duration,cleanup_duration。的execution_duration字段设置为0多任务工作运行。多任务工作运行的总时间的价值run_duration字段。

cleanup_duration

INT64

以毫秒为单位的时间花了终止集群和清理任何相关的工件。总运行时间的总和setup_duration,execution_duration,cleanup_duration。的cleanup_duration字段设置为0多任务工作运行。多任务工作运行的总时间的价值run_duration字段。

run_duration

INT64

时间以毫秒为单位的工作运行和它的所有维修完成。这个字段只设置运行,而不是任务运行多任务工作。一个任务运行的时间的总和setup_duration,execution_duration,cleanup_duration

触发

TriggerType

触发发射这个运行的类型。

creator_user_name

字符串

造物主的用户名。这个领域不会包含在响应中如果用户已经删除

run_page_url

字符串

运行的详细信息页面的URL。

经营出口

端点

HTTP方法

2.0 /工作/运行/出口

得到

出口和检索工作运行的任务。

请注意

只能出口笔记本运行在HTML格式。出口的其他类型将会失败。

例子

请求

curl——netrc请求\“https:// < databricks-instance > . . / api / 2.0 /工作/运行/出口? run_id = <运行id > '\|金桥。

或者:

curl——netrc\https:// < databricks-instance > . . / api / 2.0 /工作/运行/出口\——数据run_id=<运行id >\|金桥。

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • <运行id >例如,与运行的ID123年

这个示例使用. netrc文件和金桥

响应

{“视图”:({“内容”:“< !html DOCTYPE html > < > < >负责人< /头> <身体> < /身体> < / html >”,“名称”:“我的笔记本”,“类型”:“笔记本”}]}

从JSON响应中提取的HTML的笔记本,下载并运行Python脚本

请注意

笔记本的身体__DATABRICKS_NOTEBOOK_MODEL对象是编码。

请求结构

字段名

类型

描述

run_id

INT64

规范标识符。这个字段是必需的。

views_to_export

ViewsToExport

这观点出口(代码、仪表板或全部)。默认的代码。

响应结构

字段名

类型

描述

的观点

一个数组的ViewItem

在HTML格式导出的内容(一个为每个视图条目)。

取消运行

端点

HTTP方法

2.0 /工作/运行/取消

帖子

取消工作运行。因为取消了异步运行,运行这个请求完成时可能仍在运行。运行不久将被终止。如果已经在一个终端运行life_cycle_state,这个方法是一个空操作。

这个端点确认run_id参数是有效的和无效的参数返回HTTP状态代码400。

例子

curl——netrc POST请求\https:// < databricks-instance > . . / api / 2.0 /工作/运行/取消\——数据”{“run_id”: <运行id >}’

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • <运行id >例如,与运行的ID123年

这个示例使用. netrc文件。

请求结构

字段名

类型

描述

run_id

INT64

规范标识符的取消。这个字段是必需的。

取消所有运行

端点

HTTP方法

2.0 /工作/运行/取消所有

帖子

取消所有活动的工作。因为取消了异步运行,它不会阻止新的运行开始。

这个端点确认job_id参数是有效的和无效的参数返回HTTP状态代码400。

例子

curl——netrc POST请求\https:// < databricks-instance > . . / api / 2.0 /工作/运行/取消所有\——数据”{“job_id”: <作业id >}’

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • <作业id >例如,与工作的ID123年

这个示例使用. netrc文件。

请求结构

字段名

类型

描述

job_id

INT64

规范化作业取消所有运行的标识符。这个字段是必需的。

运行得到的输出

端点

HTTP方法

2.0 /工作/运行/输出

得到

检索一个任务的输出和元数据。当一个笔记本任务通过返回一个值dbutils.notebook.exit ()电话,您可以使用该端点来检索该值。砖限制这个API返回的输出的第一个5 MB。对于返回一个更大的结果,您可以工作结果存储在云存储服务。

这个端点确认run_id参数是有效的和无效的参数返回HTTP状态代码400。

运行之后自动删除60天。如果你想引用它们超出60天,到期前你应该保存古老的运行结果。出口使用UI,明白了出口工作运行结果。出口使用工作API,明白了经营出口

例子

请求

curl——netrc请求\“https:// < databricks-instance > . . / api / 2.0 /工作/运行/输出? run_id = <运行id > '\|金桥。

或者:

curl——netrc\https:// < databricks-instance > . . / api / 2.0 /工作/运行/输出\——数据run_id=<运行id >\|金桥。

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • <运行id >例如,与运行的ID123年

这个示例使用. netrc文件和金桥

响应

{“元数据”:{“job_id”:1,“run_id”:452年,“number_in_job”:5,“状态”:{“life_cycle_state”:“终止”,“result_state”:“成功”,“state_message”:”“},“任务”:{“notebook_task”:{“notebook_path”:“/用户/ someone@example.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“触发”:“周期”},“notebook_output”:{“结果”:“也许截断字符串传递给dbutils.notebook.exit ()}}

请求结构

字段名

类型

描述

run_id

INT64

规范标识符。找工作与mulitple任务,这是run_id任务的运行。看到运行得到的输出。这个字段是必需的。

响应结构

字段名

类型

描述

notebook_output错误

NotebookOutput字符串

如果notebook_output,笔记本的输出任务,如果可用。一个笔记本任务终止(成功或失败)没有打电话dbutils.notebook.exit ()被认为有一个空的输出。该字段将被设置,但其结果值将是空的。

如果错误,一个错误消息指示输出不可用的原因。非结构化信息,和它的确切格式都可能发生变化。

元数据

运行

所有的细节除了运行它的输出。

运行删除

端点

HTTP方法

2.0 /工作/运行/删除

帖子

删除一个稳定的运行。返回一个错误如果运行活动。

例子

curl——netrc POST请求\https:// < databricks-instance > . . / api / 2.0 /工作/运行/删除\——数据”{“run_id”: <运行id >}’

替换:

  • < databricks-instance >与砖工作区实例名例如,dbc-a1b2345c-d6e7.cloud.www.neidfyre.com

  • <运行id >例如,与运行的ID123年

这个示例使用. netrc文件。

请求结构

字段名

类型

描述

run_id

INT64

规范标识符的运行检索元数据。

数据结构

自动定量

集群范围定义的最小和最大数量的工人。

字段名

类型

描述

min_workers

INT32

工人的最低数量的集群可以缩小时没有得到充分的利用。这也是最初的工人数量集群创建后。

max_workers

INT32

工人的最大数量的集群可以扩大当超载。必须严格大于min_workers max_workers。

AwsAttributes

属性设置集群创建期间有关亚马逊网络服务。

字段名

类型

描述

first_on_demand

INT32

第一first_on_demand集群的节点将被放置在随需应变的实例。如果该值大于0,则集群驱动节点将被放置在一个随需应变的实例。如果该值大于或等于当前集群大小,所有节点将被放置在随需应变的实例。如果这个值小于当前集群大小,first_on_demand节点将被放置在随需应变的实例和其余部分将被放置可用性实例。这个值并不影响集群大小和不能突变在集群的生命周期。

可用性

AwsAvailability

可用性类型用于所有后续节点过去first_on_demand的。注意:如果first_on_demand是零,这种可用性将用于整个集群。

zone_id

字符串

可用性区域的标识符(AZ)集群所在。默认情况下,设置的值为汽车,否则称为Auto-AZ。Auto-AZ,砖在工作区中选择可用的阿兹基于ip子网和重试可用性区域如果AWS返回错误能力不足。

如果你愿意,你也可以指定一个可用性区域使用。这福利账户保留在一个特定的实例。指定AZ作为字符串(例如,“us-west-2a”)。提供的可用性区域必须在同一地区砖部署。例如,“us-west-2a”不是一个有效的区域ID如果砖部署驻留在“us-east-1”地区。

可用区域的列表以及默认值可以通过找到得到. . / api / 2.0 /集群/ list-zones调用。

instance_profile_arn

字符串

节点的集群只会放在AWS实例,这个实例配置文件。如果省略,节点将被放置在没有实例配置文件实例。实例配置文件之前必须被添加到砖环境帐户管理员。

此功能只能用于某些客户的计划。

spot_bid_price_percent

INT32

AWS实例,马克斯价格的比例相应的实例类型的随需应变的价格。例如,如果这个字段设置为50,和集群需要一个新的i3.xlarge现货实例,那么马克斯价格是随需应变的价格的一半i3.xlarge实例。同样,如果这个字段被设置为200,马克斯价格是随需应变的价格的两倍i3.xlarge实例。如果没有指定,默认值为100。当现货实例请求这个集群,只有现货实例的马克斯价格百分比匹配这一领域将被考虑。为了安全,我们执行这个领域不超过10000。

ebs_volume_type

EbsVolumeType

EBS卷的类型将启动集群。

ebs_volume_count

INT32

卷的数量为每个实例启动。你可以选择10卷。此功能只支持支持节点类型。遗留的节点类型不能指定自定义EBS卷。节点类型没有实例存储,需要指定至少一个EBS卷;否则,创建集群将会失败。

这些将被安装在EBS卷/ ebs0,/ ebs1等。将安装在实例存储卷/ local_disk0,/ local_disk1等。

如果在EBS卷,砖将配置的火花只使用EBS卷存储,因为不均匀大小的嘁喳设备会导致低效的磁盘利用率。如果没有附加EBS卷,砖将火花配置为使用实例存储卷。

如果指定EBS卷,火花配置spark.local.dir将被覆盖。

ebs_volume_size

INT32

每个EBS卷的大小为每个实例(在直布罗陀海峡)推出。对于通用SSD,这个值必须在100 - 4096年的经营范围内。吞吐量的优化硬盘,这个值必须在500 - 4096年的经营范围内。定制EBS卷不能被指定为遗留节点类型(memory-optimizedcompute-optimized)。

ebs_volume_iops

INT32

每EBS gp3 IOPS卷的数量。

这个值必须在3000年和16000年之间。

IOPS的价值和吞吐量计算基于AWS文档匹配的最大性能gp2体积相同的体积大小。

有关更多信息,请参见EBS卷限制计算器

ebs_volume_throughput

INT32

MiB的吞吐量/ EBS gp3体积,每秒。

这个值必须在125年和1000年之间。

如果既不ebs_volume_iops也不ebs_volume_throughput指定的值推断磁盘大小:

磁盘大小

IOPS

吞吐量

大于1000

3倍的磁盘大小,16000

250年

在170年和1000年之间

3000年

250年

低于170

3000年

125年

AwsAvailability

AWS可用性的集合类型设置为一个集群节点时的支持。

类型

描述

现货

使用实例。

ON_DEMAND

使用随需应变的实例。

SPOT_WITH_FALLBACK

最好使用现货实例,但回落到按需实例如果无法获得现货实例(例如,如果AWS现货价格太高)。

ClusterInstance

集群和火花上下文标识符使用的运行。这两个值一起识别执行上下文的所有时间。

字段名

类型

描述

cluster_id

字符串

规范标识符使用的集群运行。这个领域一直是用于现有的集群上运行。新的集群上运行,它可用一次创建集群。这个值可以用来查看日志通过浏览/ / sparkui / $ cluster_id / driver-logs #设置。可用的日志将继续运行完成后。

响应不包括这个领域如果还没有可用的标识符。

spark_context_id

字符串

规范标识符使用的上下文。这个领域将填写一旦运行开始执行。这个值可以用来查看火花UI通过浏览/ #设置/ sparkui / cluster_id / spark_context_id美元。火花UI将继续在运行完成后可用。

响应不包括这个领域如果还没有可用的标识符。

ClusterLogConf

集群日志路径。

字段名

类型

描述

dbfss3

DbfsStorageInfo

S3StorageInfo

DBFS集群日志的位置。必须提供目的地。例如,{“dbfs”:{“目的地”:“dbfs: / home / cluster_log”}}

S3集群日志的位置。目的地,要么地区仓库必须提供。例如,{“s3”:{“目的地”:“s3: / / cluster_log_bucket /前缀”,“地区”:“us-west-2”}}

ClusterSpec

重要的

  • 当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。

  • 当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。

字段名

类型

描述

existing_cluster_idnew_cluster

字符串NewCluster

如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。

如果new_cluster,集群的描述将被创建为每个运行。

如果指定一个PipelineTask,那么这个字段可以是空的。

一个数组的图书馆

一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。

ClusterTag

集群标签定义。

类型

描述

字符串

标签的关键。密钥长度必须在1到127之间utf - 8字符,包容性。所有限制的列表,请参阅AWS标签限制:https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/Using_Tags.html tag-restrictions

字符串

标签的价值。值的长度必须小于或等于255 utf - 8字符。所有限制的列表,请参阅AWS标签限制:https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/Using_Tags.html tag-restrictions

CronSchedule

字段名

类型

描述

quartz_cron_expression

字符串

一个Cron表达式使用石英语法描述安排一份工作。看到Cron触发获取详细信息。这个字段是必需的。

timezone_id

字符串

Java时区ID。工作时间表将会解决关于这个时区。看到Java时区获取详细信息。这个字段是必需的。

pause_status

字符串

指示是否这个计划暂停。“暂停”或“停顿”。

DbfsStorageInfo

DBFS存储信息。

字段名

类型

描述

目的地

字符串

DBFS目的地。例子:dbfs: /我/路径

EbsVolumeType

砖支持gp2和gp3 EBS卷类型。按照说明在管理SSD存储选择gp2或gp3工作区。

类型

描述

GENERAL_PURPOSE_SSD

提供额外的存储使用AWS EBS卷。

THROUGHPUT_OPTIMIZED_HDD

提供额外的存储使用AWS相约卷。

FileStorageInfo

文件存储信息。

请注意

这个位置类型只能为集群设置使用砖容器服务

字段名

类型

描述

目的地

字符串

文件的目的地。例子:文件:/我/ file.sh

InitScriptInfo

一个init脚本。

对使用init脚本指令砖容器服务,请参阅使用init脚本

请注意

文件存储类型(字段名:文件)只能用于集群设置使用砖容器服务。看到FileStorageInfo

字段名

类型

描述

工作空间dbfs(弃用)

S3

WorkspaceStorageInfo

DbfsStorageInfo(弃用)

S3StorageInfo

init脚本的工作区位置。必须提供目的地。例如,{“工作区”:{“目的地”:“/用户/ someone@domain.com/init_script.sh”}}

(弃用)DBFS init脚本的位置。必须提供目的地。例如,{“dbfs”:{“目的地”:“dbfs: / home / init_script”}}

S3 init脚本的位置。必须提供目的地和地区或仓库。例如,{“s3”:{“目的地”:“s3: / / init_script_bucket /前缀”,“地区”:“us-west-2”}}

工作

字段名

类型

描述

job_id

INT64

这个工作的规范标识符。

creator_user_name

字符串

造物主的用户名。这个领域不会包含在响应中如果用户已经删除。

run_as

字符串

用户名,作业将运行。run_as是基于当前的工作设置,并将工作,如果工作的创造者访问控制被禁用,或者是吗is_owner如果启用了访问控制工作许可。

设置

JobSettings

和它的所有运行设置这个工作。这些设置可以更新使用resetJob方法。

created_time

INT64

这个工作的时间成立于时代毫秒(毫秒因为1/1/1970 UTC)。

JobEmailNotifications

重要的

on_start, on_success和on_failure字段只接受拉丁字符(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。

字段名

类型

描述

on_start

一个数组的字符串

电子邮件地址的列表通知运行时就开始了。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。

on_success

一个数组的字符串

电子邮件地址的列表成功运行完成时得到通知。跑步被认为是成功完成如果结尾终止life_cycle_state和一个成功的result_state。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。

on_failure

一个数组的字符串

电子邮件地址的列表通知运行时没有成功完成。跑步被认为已经完成了如果它以一个失败INTERNAL_ERRORlife_cycle_state或者一个跳过,失败的,或TIMED_OUTresult_state。如果不指定这个值在创造就业方面,重置,或更新列表为空,不发送通知。

on_duration_warning_threshold_exceeded

一个数组的字符串

一个被通知的电子邮件地址列表当运行的持续时间超过指定的阈值RUN_DURATION_SECONDS规的健康字段。如果没有规则的RUN_DURATION_SECONDS度量中指定健康领域的工作,不发送通知。

no_alert_for_skipped_runs

BOOL

如果这是真的,不发送电子邮件收件人中指定on_failure如果运行跳过。

字段名

类型

描述

on_start

一个数组的Webhook

一个可选列表系统目的地运行开始时得到通知。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。最多3可以指定的目的地on_start财产。

on_success

一个数组的Webhook

一个可选列表系统目的地运行成功完成时得到通知。跑步被认为是成功完成如果结尾终止life_cycle_state和一个成功的result_state。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。最多3可以指定的目的地on_success财产。

on_failure

一个数组的Webhook

一个可选的系统的目的地列表完成运行失败时得到通知。跑步被认为已经完成了如果它以一个失败INTERNAL_ERRORlife_cycle_state或者一个跳过,失败的,或TIMED_OUTresult_state。如果不指定这个值在创造就业方面,重置,或更新列表为空,不发送通知。最多3可以指定的目的地on_failure财产。

on_duration_warning_threshold_exceeded

一个数组的Webhook

一个可选的通知系统的目的地列表当运行的持续时间超过指定的阈值RUN_DURATION_SECONDS规的健康字段。最多3可以指定的目的地on_duration_warning_threshold_exceeded财产。

JobNotificationSettings

字段名

类型

描述

no_alert_for_skipped_runs

BOOL

如果这是真的,不发送通知中指定的收件人on_failure如果运行跳过。

no_alert_for_canceled_runs

BOOL

如果这是真的,不发送通知中指定的收件人on_failure如果运行的是取消了。

alert_on_last_attempt

BOOL

如果这是真的,不发送通知中指定的收件人on_start重试运行和不发送通知中指定的收件人on_failure直到最后运行的重试。

JobSettings

重要的

  • 当你在新的工作岗位集群上运行工作,这项工作被视为一个就业计算(自动化)工作负载工作计算价格。

  • 当您运行工作在现有通用的集群,它被视为一个通用计算(互动)工作负载通用计算价格。

设置工作。这些设置可以更新使用resetJob方法。

字段名

类型

描述

existing_cluster_idnew_cluster

字符串NewCluster

如果existing_cluster_id,现有集群的ID将被用于所有的这个工作。现有的集群上运行作业时,您可能需要手动重新启动集群,如果它停止响应。我们建议新集群上运行工作更大的可靠性。

如果new_cluster,集群的描述将被创建为每个运行。

如果指定一个PipelineTask,那么这个字段可以是空的。

notebook_taskspark_jar_taskspark_python_taskspark_submit_taskpipeline_taskrun_job_task

NotebookTaskSparkJarTaskSparkPythonTaskSparkSubmitTaskPipelineTaskRunJobTask

如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。

如果spark_jar_task,表明这项工作应该运行一个罐子里。

如果spark_python_task,表明这项工作应该运行Python文件。

如果spark_submit_task,表明这项工作应该发起的火花提交脚本。

如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。

如果run_job_task,表明这项工作应该运行另一份工作。

的名字

字符串

一个可选的名字。默认值是无标题的

一个数组的图书馆

一个可选的图书馆集群上安装列表将执行这项工作。默认值是一个空列表。

email_notifications

JobEmailNotifications

一个可选的组运行时会通知的电子邮件地址的这个工作开始或完成这份工作时被删除。默认行为是不发送任何电子邮件。

webhook_notifications

WebhookNotifications

一组可选的系统通知目的地当这个工作开始运行,完成,或失败。

notification_settings

JobNotificationSettings

使用可选的通知设置在发送通知的email_notificationswebhook_notifications对于这个工作。

timeout_seconds

INT32

一个可选的超时应用于每次运行的工作。默认行为是没有超时。

max_retries

INT32

一个可选的最大重试失败的次数。跑步被认为是不成功的,如果它完成的失败的result_state或INTERNAL_ERRORlife_cycle_state。值1的意思是无限期重试,值0意味着永不重试。默认行为是不重试。

min_retry_interval_millis

INT32

一个可选的尝试之间的最小间隔时间以毫秒为单位。默认行为是成功运行立即重试。

retry_on_timeout

BOOL

一个可选的策略来指定是否重试时超时工作。默认行为是在超时不重试。

时间表

CronSchedule

一个可选的周期安排这项工作。默认行为是引发的作业只会运行时点击“运行”的工作界面或发送一个API请求runNow

max_concurrent_runs

INT32

一个可选的最大允许并发运行的作业的数量。

设置这个值,如果你希望能够执行多个并发运行相同的作业。这是有用的,例如如果你频繁触发你的工作在一个计划,希望允许连续运行相互重叠,或如果你想触发多个运行不同的输入参数。

这个设置只影响新的运行。例如,假设工作的并发是4和有4个并发活动。然后设置并发3不会杀死任何活动运行的。然而,从那时起,新的运行时将被忽略,除非有少于3活跃。

这个值不能超过1000。这个值设置为0会引起新的运行跳过。默认行为是只允许1并发运行。

健康

JobsHealthRules

定义一组可选的卫生规则。

JobTask

字段名

类型

描述

notebook_taskspark_jar_taskspark_python_taskspark_submit_taskpipeline_taskrun_job_task

NotebookTaskSparkJarTaskSparkPythonTaskSparkSubmitTaskPipelineTaskRunJobTask

如果notebook_task,表明这项工作应该运行一个笔记本。这一领域可能不是结合spark_jar_task指定。

如果spark_jar_task,表明这项工作应该运行一个罐子里。

如果spark_python_task,表明这项工作应该运行Python文件。

如果spark_submit_task,表明这项工作应该发起的火花提交脚本。

如果pipeline_task,表明这项工作应该运行一个三角洲住表管道。

如果run_job_task,表明这项工作应该运行另一份工作。

JobsHealthRule

字段名

类型

描述

度规

字符串

指定的卫生指标评估特定卫生规则。有效的值RUN_DURATION_SECONDS

操作符

字符串

指定操作符用于比较健康度量值与指定的阈值。有效的值GREATER_THAN

价值

INT32

指定的阈值,卫生指标应满足遵守卫生规则。

JobsHealthRules

字段名

类型

描述

规则

一个数组的JobsHealthRule

一组可选的卫生规则,可以定义一个工作。

图书馆

字段名

类型

描述

jarwhlpypimaven凹口

字符串字符串字符串PythonPyPiLibraryMavenLibraryRCranLibrary

如果jar, URI的jar安装。支持DBFS和S3 uri。例如:{“罐子”:“dbfs: / mnt /砖/ library.jar”}{“罐子”:“s3: / /桶/ library.jar”}。如果使用S3,确保集群在图书馆读访问。你可能需要启动实例的集群配置文件访问S3 URI。

如果鸡蛋,鸡蛋的URI被安装。支持DBFS和S3 uri。例如:{“蛋”:“dbfs: /我的/蛋”}{“蛋”:“s3: / /桶/蛋”}。如果使用S3,确保集群在图书馆读访问。你可能需要启动实例的集群配置文件访问S3 URI。

如果whl, URI的车轮或压缩安装车轮。支持DBFS和S3 uri。例如:{“whl”:“dbfs: /我的/ whl”}{“whl”:“s3: / /桶/ whl”}。如果使用S3,确保集群在图书馆读访问。你可能需要启动实例的集群配置文件访问S3 URI。轮文件名需要使用正确的公约。如果要安装压缩轮子,文件名后缀.wheelhouse.zip

如果pypi, pypi库安装的规范。指定回购字段是可选的,如果没有指定,默认使用脉冲指数。例如:{“包”:“simplejson”,“回购”:“https://my-repo.com”}

如果maven, maven库安装的规范。例如:{“坐标”:“org.jsoup: jsoup: 1.7.2”}

如果凹口,凹口库安装的规范。

MavenLibrary

字段名

类型

描述

坐标

字符串

Gradle-style Maven坐标。例如:org.jsoup: jsoup:是1.7.2。这个字段是必需的。

回购

字符串

Maven回购安装Maven寄来的包裹。如果省略,Maven中央存储库和引发搜索包。

除外责任

一个数组的字符串

依赖性排除列表。例如:[" slf4j: slf4j”,“* hadoop-client”):

Maven依赖除外责任:https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html

NewCluster

字段名

类型

描述

num_workers自动定量

INT32自动定量

如果num_workers,工人数量节点集群应该。一个集群有一个火花司机和num_workers执行人总共num_workers + 1火花节点。

当阅读一个集群的属性,这个领域反映所需的工人数量而不是工人数量的实际电流。例如,如果一个集群的大小从5到10的工人,这一领域将立即被更新以反映目标大小为10的工人,而工人们中列出spark_info将逐渐增加从5到10新节点配置。

如果自动定量,必需的参数自动上下规模集群基于负载。

spark_version

字符串

集群的火花版本。可用火花版本的列表可以通过使用检索得到2.0 /集群/ spark-versions调用。这个字段是必需的。

spark_conf

SparkConfPair

一个对象包含一组可选的,指定的火花配置键-值对。还可以通过一系列额外的司机和执行人通过JVM选项spark.driver.extraJavaOptionsspark.executor.extraJavaOptions分别。

火花参看示例:{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

aws_attributes

AwsAttributes

属性相关的集群运行在Amazon Web服务。如果没有指定在创建集群,将使用默认值。

node_type_id

字符串

这一领域的编码,通过单个值,可用的资源的火花节点集群。例如,火花节点可以提供和优化内存或计算密集型工作负载可用节点类型的列表可以通过使用检索得到2.0 /集群/ list-node-types调用。这个领域,instance_pool_id字段或一个集群政策,指定一个节点类型ID或实例池ID,是必需的。

driver_node_type_id

字符串

火花的节点类型的司机。这个字段是可选的;如果设置,驱动节点类型将被设置为相同的值node_type_id上面的定义。

ssh_public_keys

一个数组的字符串

SSH公钥的内容将被添加到每个火花节点集群。可以使用相应的私钥与用户名登录ubuntu在端口2200年。可以指定多达10个钥匙。

custom_tags

ClusterTag

一个对象包含对集群资源的一组标记。砖标签的所有集群资源(比如AWS实例和EBS卷)除了default_tags与这些标签。

请注意:

  • 标签上不支持遗留节点类型compute-optimized和memory-optimized等

  • 砖允许最多45定制标记

cluster_log_conf

ClusterLogConf

长期存储的配置提供火花日志目的地。只能指定一个目标为一个集群。如果配置,日志将被交付给每一个目的地5分钟。司机日志的目的地<目标> / < cluster-id > /司机的目的地,而执行者日志<目标> / < cluster-id > /执行器

init_scripts

一个数组的InitScriptInfo

存储的配置初始化脚本。可以指定任意数量的脚本。所提供的脚本的顺序执行。如果cluster_log_conf指定,init脚本日志发送到吗<目标> / < cluster-id > / init_scripts

spark_env_vars

SparkEnvPair

一个对象包含一组可选的,键值指定的环境变量。键-值对的形式(X, Y)出口(即,出口X = Y),而司机和工人。

指定一组额外的SPARK_DAEMON_JAVA_OPTS,我们建议追加SPARK_DAEMON_JAVA_OPTS美元如以下示例所示。这确保了所有默认砖管理包括环境变量。

示例引发环境变量:{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

enable_elastic_disk

BOOL

自动定量本地存储:启用时,这个集群动态获得额外的磁盘空间时,火花工人以低磁盘空间。该功能需要特定的AWS权限功能正确——指自动定量本地存储获取详细信息。

driver_instance_pool_id

字符串

可选的ID用于驱动节点实例池。您还必须指定instance_pool_id。指的是实例池API获取详细信息。

instance_pool_id

字符串

可选的ID用于集群节点实例池。如果driver_instance_pool_id存在,instance_pool_id只用于工作节点。否则,它用于司机节点和工作节点。指的是实例池API获取详细信息。

NotebookOutput

字段名

类型

描述

结果

字符串

值传递给dbutils.notebook.exit ()。砖限制这个API返回的第一个1 MB值。对于一个更大的结果,你的工作可以将结果存储在云存储服务。这一领域将会缺席dbutils.notebook.exit ()从来没有叫。

截断

布尔

不管结果是截断。

NotebookTask

所有输出细胞受到8 mb的大小。如果一个细胞的输出有较大的尺寸,其余的将被取消,跑将标记为失败。在这种情况下,一些内容的输出从其他细胞也可能丢失。

如果你需要帮助找到细胞超出了限制,笔记本和一个通用的集群运行和使用笔记本自动保存技术

字段名

类型

描述

notebook_path

字符串

绝对路径的笔记本运行砖工作区。这条路必须开始削减。这个字段是必需的。

revision_timestamp

修改的时间戳的笔记本。

base_parameters

的地图ParamPair

基础参数用于每次运行的工作。如果是由调用运行现在参数指定的两个参数地图将被合并。如果指定相同的密钥base_parameters而在现在的价值现在就会被使用。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

如果没有指定的笔记本需要一个参数在工作的base_parameters或者是现在覆盖参数,从笔记本将使用默认值。

获取这些参数在一个笔记本使用dbutils.widgets.get

ParamPair

笔记本运行基于名称的参数作业任务。

重要的

这个数据结构只接受拉丁字符的字段(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。

类型

描述

字符串

参数名称。传递给dbutils.widgets.get来检索值。

字符串

参数值。

PipelineTask

字段名

类型

描述

pipeline_id

字符串

三角洲的全称生活表管道任务执行。

PythonPyPiLibrary

字段名

类型

描述

字符串

的名字PyPI包安装。还支持一个可选的版本规范。例子:simplejsonsimplejson = = 3.8.0。这个字段是必需的。

回购

字符串

可以找到包的存储库。如果没有指定,默认使用脉冲指数。

RCranLibrary

字段名

类型

描述

字符串

凹口的名字包安装。这个字段是必需的。

回购

字符串

可以找到包的存储库。如果没有指定,默认使用凹口回购。

运行

所有的信息除了它的输出。输出可以分别与检索getRunOutput方法。

字段名

类型

描述

job_id

INT64

规范标识符包含这个运行的工作。

run_id

INT64

规范化运行的标识符。这个ID是独特的在所有运行的所有工作。

creator_user_name

字符串

造物主的用户名。这个领域不会包含在响应中如果用户已经删除。

number_in_job

INT64

序列号的运行在所有的运行工作。这个值从1开始。

original_attempt_run_id

INT64

如果这是之前运行的重试尝试运行,该字段包含原文的run_id尝试;否则,它是run_id一样。

状态

RunState

运行的结果和生命周期状态。

时间表

CronSchedule

触发这个运行的cron调度如果是引发的周期性调度程序。

任务

JobTask

执行的任务运行,如果任何。

cluster_spec

ClusterSpec

工作的快照的集群规范这个运行时创建的。

cluster_instance

ClusterInstance

集群用于此运行。如果指定运行使用一个新的集群,这一领域将一旦就业服务请求的集群运行。

overriding_parameters

RunParameters

用于此运行的参数。

start_time

INT64

这种运行成立于时代的时间毫秒(毫秒因为1/1/1970 UTC)。这可能不是工作任务的时候开始执行,例如,如果工作是计划一个新的集群上运行,这是集群创建调用的时间。

setup_duration

INT64

设置集群的时间,以毫秒为单位。运行,运行在新集群的集群创建时间,运行现有的集群上运行这个时间应该很短。

execution_duration

INT64

的时间,以毫秒为单位执行JAR中的命令或笔记本,直到他们完成,失败了,超时,被取消,或者遇到了一个意想不到的错误。

cleanup_duration

INT64

以毫秒为单位的时间花了终止集群和清理任何相关的工件。总运行时间的总和setup_duration, execution_duration, cleanup_duration。

end_time

INT64

这个跑在时代结束毫秒的时间(单位为毫秒自1/1/1970 UTC)。这个字段将被设置为0,如果工作仍在运行。

触发

TriggerType

触发发射这个运行的类型。

run_name

字符串

一个可选的名称。默认值是无标题的。最大允许长度是4096字节utf - 8编码。

run_page_url

字符串

运行的详细信息页面的URL。

run_type

字符串

运行的类型。

  • JOB_RUN——正常工作运行。创建一个运行与现在运行

  • WORKFLOW_RUN——工作流运行。创建一个运行与dbutils.notebook.run

  • SUBMIT_RUN——提交运行。创建一个运行与现在运行

attempt_number

INT32

序列号的尝试引发工作跑。的初始尝试运行的attempt_number 0。如果初始运行失败,工作有一个重试策略(max_retries> 0),随后创建一个运行original_attempt_run_id最初的尝试的ID和一个递增attempt_number。运行仅重试,直到他们成功,最大attempt_number是一样的吗max_retries价值的工作。

RunJobTask

字段名

类型

描述

job_id

INT32

工作的惟一标识符。这个字段是必需的。

RunLifeCycleState

的生命周期状态运行。允许状态转换:

  • 等待- >运行- >终止- >终止

  • 等待- >跳过

  • 等待- >INTERNAL_ERROR

  • 运行- >INTERNAL_ERROR

  • 终止- >INTERNAL_ERROR

状态

描述

等待

运行触发。如果没有一个活跃的运行相同的工作,集群正在准备和执行上下文。如果已经有一个活跃的运行相同的工作,运行就会立即进入跳过国家没有准备任何资源。

运行

正在运行的任务执行。

终止

这个运行的任务已经完成,集群和执行上下文被清理干净。

终止

这个运行的任务已经完成,集群和执行上下文已经清理干净。这个状态是终端。

跳过

这流产是因为先前跑同样的工作已经活跃。这个状态是终端。

INTERNAL_ERROR

异常状态,表示失败的工作服务,如长期网络故障。如果一个运行在一个新的集群中结束INTERNAL_ERROR状态,就业服务尽快终止集群。这个状态是终端。

RunParameters

这个运行参数。只有jar_params之一,python_params,或者notebook_params应该中指定现在请求,这取决于类型的工作任务。工作与火花JAR任务或Python任务列表的定位参数,使用笔记本电脑和工作任务键值映射。

字段名

类型

描述

jar_params

一个数组的字符串

参数列表工作与火花JAR任务,例如“jar_params”:["约翰母鹿”,“35”)。参数将用于调用中指定的主类的主要功能火花JAR任务。如果未指定现在,它将默认为一个空列表。jar_params不能结合notebook_params指定。这个字段(即的JSON表示。{“jar_params”:["约翰母鹿”、“35”)})不能超过10000个字节。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

notebook_params

的地图ParamPair

与笔记本从键值映射工作任务,如。“notebook_params”:{" name ":“约翰母鹿”,“年龄”:“35”}。地图被传递到笔记本,可以通过dbutils.widgets.get函数。

如果未指定现在,触发运行使用工作的基础参数。

notebook_params不能结合jar_params指定。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

这个字段(即的JSON表示。{" notebook_params ":{“名称”:“约翰母鹿”、“年龄”:“35”}})不能超过10000个字节。

python_params

一个数组的字符串

与Python任务工作的参数列表,如“python_params”:["约翰母鹿”,“35”)。参数传递到Python文件作为命令行参数。如果指定在现在,它将覆盖工作设置中指定的参数。这个字段(即的JSON表示。{“python_params”:["约翰母鹿”、“35”)})不能超过10000个字节。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

重要的

这些参数只接受拉丁字符(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。

spark_submit_params

一个数组的字符串

工作引发的参数列表提交的任务,例如“spark_submit_params”:["——阶级”,“org.apache.spark.examples.SparkPi”)。参数传递给脚本spark-submit作为命令行参数。如果指定在现在,它将覆盖工作设置中指定的参数。这个字段(即的JSON表示。{“python_params”:["约翰母鹿”、“35”)})不能超过10000个字节。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

重要的

这些参数只接受拉丁字符(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。

RunResultState

的结果状态运行。

  • 如果life_cycle_state=终止:如果有一个任务运行,结果是保证是可用的,它表明任务的结果。

  • 如果life_cycle_state=等待,运行,或跳过,结果不可用状态。

  • 如果life_cycle_state=终止或lifecyclestate =INTERNAL_ERROR:结果状态可用如果运行一个任务和管理开始。

一旦可用,结果状态不会改变。

状态

描述

成功

任务成功完成。

失败的

任务完成的一个错误。

TIMEDOUT

达到超时后运行停止。

取消了

运行在用户请求被取消了。

RunState

字段名

类型

描述

life_cycle_state

RunLifeCycleState

的描述运行的运行生命周期中的当前位置。这个领域在响应中总是可用的。

result_state

RunResultState

的结果状态运行。如果不可用,反应不包括这个领域。看到RunResultState对细节result_state的可用性。

user_cancelled_or_timedout

布尔

由用户手动运行是否被取消或调度程序,因为运行超时。

state_message

字符串

当前状态的描述性信息。这个字段是结构化的,它的确切格式是可能发生变化。

S3StorageInfo

S3存储信息。

字段名

类型

描述

目的地

字符串

S3的目的地。例如:s3: / /桶/ some-prefix您必须配置集群配置文件实例和实例配置文件必须写访问的目的地。你不能使用AWS键。

地区

字符串

S3。例如:us-west-2。地区或仓库必须设置。如果两个设置,仓库使用。

仓库

字符串

S3仓库。例如:https://s3 -我们-西方- 2. - amazonaws.com。地区或仓库必须设置。如果两个设置,仓库使用。

enable_encryption

BOOL

(可选)启用服务器端加密,默认情况下。

encryption_type

字符串

(可选)加密类型sse-s3sse-kms。仅当启用加密时使用,默认的类型sse-s3

kms_key

字符串

如果使用(可选)公里密钥加密和加密类型设置为启用sse-kms

canned_acl

字符串

(可选)设置访问控制列表罐头。例如:bucket-owner-full-control。如果设置了canned_acl,集群实例配置文件必须有s3: PutObjectAcl许可在目的地桶和前缀。可能罐头acl的完整列表可以在找到https://docs.aws.amazon.com/AmazonS3/latest/dev/acl-overview.html canned-acl。默认情况下,只有对象所有者得到完全控制。如果您使用交叉账户角色写数据,您可能希望设置bucket-owner-full-control让桶所有者能够阅读日志。

SparkConfPair

火花配置键-值对。

类型

描述

字符串

配置属性的名称。

字符串

配置属性值。

SparkEnvPair

引发环境变量键-值对。

重要的

当指定环境变量的工作集群,这个数据结构只接受拉丁字符的字段(ASCII字符集)。使用非ascii字符将返回一个错误。无效的例子,非ascii字符是中国人,日本汉字,emojis。

类型

描述

字符串

一个环境变量的名字。

字符串

环境变量的值。

SparkJarTask

字段名

类型

描述

jar_uri

字符串

自04/2016弃用。提供一个jar通过字段。例如,看到的创建

main_class_name

字符串

类的全名包含要执行的主要方法。这个类必须包含在一个JAR作为图书馆提供。

代码应该使用SparkContext.getOrCreate获得一个火花上下文;否则,运行的作业将失败。

参数

一个数组的字符串

传递的参数的主要方法。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

SparkPythonTask

字段名

类型

描述

python_file

字符串

执行Python文件的URI。DBFS和S3支持路径。这个字段是必需的。

参数

一个数组的字符串

命令行参数传递给Python文件。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

SparkSubmitTask

重要的

  • 您可以调用火花提交任务只有在新的集群。

  • new_cluster规范中,spark_conf不受支持。相反,使用——罐子——py-files添加Java和Python库——设计设置火花配置。

  • ,deploy-mode,executor-cores是由砖自动配置;你不能指定参数。

  • 默认情况下,火花提交工作使用所有可用的内存(不含砖服务保留内存)。你可以设置——driver-memory,——executor-memory一个较小的值,留一些余地堆使用。

  • ——罐子,——py-files,——文件参数支持DBFS和S3路径。

例如,假设JAR DBFS上传,您可以运行SparkPi通过设置以下参数。

{“参数”:(”——阶级”,“org.apache.spark.examples.SparkPi”,“dbfs: /道路/ / examples.jar”,“10”]}

字段名

类型

描述

参数

一个数组的字符串

命令行参数传递给火花提交。

使用通过上下文对工作遇到的工作任务设置参数包含工作运行的信息。

TriggerType

这些类型的触发器可以运行。

类型

描述

周期

安排定期引发运行时,比如一个cron调度程序。

ONE_TIME

一个火一个运行时间触发。发生这种情况你触发了一个运行在通过UI需求或API。

重试

表明一个运行触发的重试之前运行失败。这发生在你请求重新运行工作的失败。

ViewItem

导出的内容是在HTML格式。例如,如果视图导出仪表板,一个HTML字符串返回每一个仪表板。

字段名

类型

描述

内容

字符串

视图的内容。

的名字

字符串

视图项的名称。在代码视图的情况下,笔记本电脑的名字。在仪表板视图,仪表板的名字。

类型

ViewType

视图条目的类型。

ViewType

类型

描述

笔记本

笔记本查看项目。

指示板

仪表板视图条目。

ViewsToExport

视图导出:要么代码,所有仪表板,或全部。

类型

描述

代码

笔记本的代码视图。

指示板

所有仪表板视图的笔记本。

所有

笔记本的所有视图。

Webhook

字段名

类型

描述

id

字符串

标识符引用系统通知目的地。这个字段是必需的。

WebhookNotifications

字段名

类型

描述

on_start

一个数组的Webhook

一个可选列表系统目的地运行开始时得到通知。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。最多3可以指定的目的地on_start财产。

on_success

一个数组的Webhook

一个可选列表系统目的地运行成功完成时得到通知。跑步被认为是成功完成如果结尾终止life_cycle_state和一个成功的result_state。如果没有指定在创造就业机会、重置或更新列表为空,不发送通知。最多3可以指定的目的地on_success财产。

on_failure

一个数组的Webhook

一个可选的系统的目的地列表完成运行失败时得到通知。跑步被认为已经完成了如果它以一个失败INTERNAL_ERRORlife_cycle_state或者一个跳过,失败的,或TIMED_OUTresult_state。如果不指定这个值在创造就业方面,重置,或更新列表为空,不发送通知。最多3可以指定的目的地on_failure财产。

on_duration_warning_threshold_exceeded

一个数组的Webhook

一个可选的通知系统的目的地列表当运行的持续时间超过指定的阈值RUN_DURATION_SECONDS规的健康字段。最多3可以指定的目的地on_duration_warning_threshold_exceeded财产。

WorkspaceStorageInfo

工作区存储信息。

字段名

类型

描述

目的地

字符串

文件的目的地。例子:/用户/ someone@domain.com/init_script.sh