Delta Live Tables API指南

Delta Live Tables API允许您创建、编辑、删除、启动和查看有关管道的详细信息。

重要的

要访问Databricks REST api,必须进行身份验证

创建管道

端点

HTTP方法

2.0 /管道

帖子

创建一个新的Delta Live Tables管道。

例子

这个例子创建了一个新的触发管道。

请求

—netrc -X POSThttps:// < databricks-instance > / api / 2.0 /管道——数据@pipeline-settings.json

pipeline-settings.json

“名称”维基百科管道(SQL)“存储”“/用户/用户名/数据”“集群”“标签”“默认”“自动定量”“min_workers”1“max_workers”5“模式”“增强”],“库”“笔记本”“路径”"/Users/username/DLT notebook /Delta Live Tables quickstart (SQL)"],“连续”

替换:

本例使用. netrc文件。

响应

“pipeline_id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”

请求结构

看到PipelineSettings

响应结构

字段名

类型

描述

pipeline_id

字符串

新创建的管道的唯一标识符。

编辑管道

端点

HTTP方法

2.0 /管道/ {pipeline_id}

更新现有管道的设置。

例子

这个例子添加了目标参数传递给带有ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求

—netrc -X PUThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5——数据@pipeline-settings.json

pipeline-settings.json

“id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“名称”维基百科管道(SQL)“存储”“/用户/用户名/数据”“集群”“标签”“默认”“自动定量”“min_workers”1“max_workers”5“模式”“增强”],“库”“笔记本”“路径”"/Users/username/DLT notebook /Delta Live Tables quickstart (SQL)"],“目标”“wikipedia_quickstart_data”“连续”

替换:

本例使用. netrc文件。

请求结构

看到PipelineSettings

删除管道

端点

HTTP方法

2.0 /管道/ {pipeline_id}

删除

从Delta Live Tables系统中删除一个管道。

例子

本示例删除带有ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求

—netrc -X DELETEhttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

替换:

本例使用. netrc文件。

启动管道更新

端点

HTTP方法

2.0 /管道/ {pipeline_id} /更新

帖子

启动管道的更新。您可以开始对整个管道图进行更新,或者对特定表进行选择性更新。

例子

开始完全刷新

这个例子开始对带ID的管道进行完全刷新a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求
—netrc -X POSThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新——数据'{"full_refresh": "true"}'

替换:

本例使用. netrc文件。

响应
“update_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”“request_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”

启动所选表的更新

对象的更新sales_orders_cleaned而且sales_order_in_chicago表在管道与IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求
—netrc -X POSThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新——数据'{"refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"]}'

替换:

本例使用. netrc文件。

响应
“update_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”“request_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”

启动所选表的完整更新

的更新sales_orders_cleaned而且sales_order_in_chicago表,并更新与完全刷新客户而且sales_orders_raw表在管道与IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求
—netrc -X POSThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新——数据'{"refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"]}'

替换:

本例使用. netrc文件。

响应
“update_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”“request_id”“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”

请求结构

字段名

类型

描述

full_refresh

布尔

是否重新处理所有数据。如果真正的, Delta Live Tables系统在运行管道之前重置所有可重置的表。

该字段可选。

默认值为

返回错误full_refesh是正确的refresh_selectionfull_refresh_selection是集。

refresh_selection

的数组字符串

要更新的表列表。使用refresh_selection开始刷新管道图中选定的一组表。

该字段可选。如果两个refresh_selection而且full_refresh_selection为空,则刷新整个管道图。

如果出现以下情况,将返回错误:

  • full_refesh是真的refresh_selection是集。

  • 管道图中不存在一个或多个指定的表。

full_refresh_selection

的数组字符串

要用完全刷新更新的表列表。使用full_refresh_selection启动所选表集的更新。在Delta Live tables系统开始更新之前,将重置指定表的状态。

该字段可选。如果两个refresh_selection而且full_refresh_selection为空,则刷新整个管道图。

如果出现以下情况,将返回错误:

  • full_refesh是真的refresh_selection是集。

  • 管道图中不存在一个或多个指定的表。

  • 一个或多个指定的表是不可重置的。

响应结构

字段名

类型

描述

update_id

字符串

新创建的更新的唯一标识符。

request_id

字符串

启动更新的请求的唯一标识符。

获取管道更新请求的状态

端点

HTTP方法

2.0 /管道/ {pipeline_id} /请求/ {request_id}

得到

获取与之关联的管道更新的状态和信息request_id,在那里request_id是发起管道更新的请求的唯一标识符。如果更新被重试或重新启动,那么新的更新将继承request_id。

例子

对于具有ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5,此示例返回与请求ID关联的更新的状态和信息a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429

请求

—netrc -X GEThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /请求/ a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429

替换:

本例使用. netrc文件。

响应

“状态”“终止”“latest_update”: {“pipeline_id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“update_id”“90 da8183 - 89 - de - 4715 - b5a9 c243e67f0093”“配置”: {“id”“aae89b88-e97e-40c4-8e1a-1b7ac76657e8”“名称”“零售(SQL)”“存储”“/用户/用户名/数据”“配置”: {“pipelines.numStreamRetryAttempts”“5”},“集群”:[“标签”“默认”“自动定量”: {“min_workers”1“max_workers”5“模式”“增强”],“库”:[“笔记本”: {“路径”"/Users/username/DLT notebook /Delta Live Tables quickstart (SQL)"],“连续”“发展”真正的“光子”真正的“版”“高级”“通道”“当前”},“原因”“API_CALL”“状态”“完成”“cluster_id”“1234 - 567891 abcde123”“creation_time”1664304117145“full_refresh”“request_id”“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”

响应结构

字段名

类型

描述

状态

字符串

管道更新请求的状态。之一

  • 活跃的:此请求的更新正在积极运行,或可能在新的更新中重试。

  • 终止:请求被终止,不再重试或重新启动。

pipeline_id

字符串

管道的唯一标识符。

update_id

字符串

更新的唯一标识符。

配置

PipelineSettings

管道设置。

导致

字符串

更新的触发器。之一API_CALLRETRY_ON_FAILURESERVICE_UPGRADESCHEMA_CHANGEJOB_TASK,或USER_ACTION

状态

字符串

更新的状态。之一排队创建WAITING_FOR_RESOURCES初始化重置SETTING_UP_TABLES运行停止完成失败的,或取消了

cluster_id

字符串

运行更新的集群标识符。

creation_time

INT64

创建更新时的时间戳。

full_refresh

布尔

此更新在运行前是否重置所有表

refresh_selection

的数组字符串

要在不完全刷新的情况下更新的表列表。

full_refresh_selection

的数组字符串

要用完全刷新更新的表列表。

request_id

字符串

启动更新的请求的唯一标识符。方法返回的值更新请求。如果更新被重试或重新启动,那么新的更新将继承request_id。然而,update_id会有所不同。

停止任何活动管道更新

端点

HTTP方法

2.0 /管道/ {pipeline_id} /停止

帖子

停止任何活动管道更新。如果没有更新正在运行,则此请求为无操作。

对于连续管道,管道执行将暂停。当前正在处理的表完成刷新,但下游表没有刷新。在下一次管道更新中,Delta Live Tables对未完成处理的表执行选定的刷新,并恢复对剩余管道DAG的处理。

对于已触发的管道,管道执行将停止。当前正在处理的表完成刷新,但下游表没有刷新。在下一次管道更新中,Delta Live Tables将刷新所有表。

例子

本示例停止使用ID的管道的更新a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求

—netrc -X POSThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /停止

替换:

本例使用. netrc文件。

列出管道事件

端点

HTTP方法

2.0 /管道/ {pipeline_id} /事件

得到

为管道检索事件。

例子

这个例子为ID的管道检索最多5个事件a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求

—netrc -X GEThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /事件? max_results5

替换:

本例使用. netrc文件。

请求结构

字段名

类型

描述

page_token

字符串

由前一次调用返回的页令牌。该字段与此请求中除max_results外的所有字段互斥。如果在设置该字段时设置了max_results以外的任何字段,则返回错误。

该字段可选。

max_results

INT32

在单个页面中返回的最大条目数。系统可能会返回小于max_results响应中的事件,即使有更多可用的事件。

该字段可选。

缺省值为25。

最大值为100。的值,则返回错误max_results大于100。

order_by

字符串

通过时间戳指示结果排序顺序的字符串,例如,["时间戳asc”)

排序顺序可以是升序或降序。默认情况下,事件按时间戳降序返回。

该字段可选。

过滤器

字符串

选择结果子集的标准,使用类似sql的语法表示。支持的过滤器是:

  • 水平= '信息'(或警告错误

  • 水平('信息',“警告”)

  • id =”(标识符)

  • 时间戳>“时间戳”(或>=<< =

支持复合表达式,例如:水平('错误',“警告”)时间戳>2021 - 07 - 22 t06:37:33.083z

该字段可选。

响应结构

字段名

类型

描述

事件

管道事件的数组。

匹配请求条件的事件列表。

next_page_token

字符串

如果存在,则为获取下一页事件的令牌。

prev_page_token

字符串

如果存在,则使用令牌获取事件的上一页。

获取管道详细信息

端点

HTTP方法

2.0 /管道/ {pipeline_id}

得到

获取有关管道的详细信息,包括管道设置和最近更新。

例子

此示例获取带有ID的管道的详细信息a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求

—netrc -X GEThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

替换:

本例使用. netrc文件。

响应

“pipeline_id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“规范”“id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“名称”维基百科管道(SQL)“存储”“/用户/用户名/数据”“集群”“标签”“默认”“自动定量”“min_workers”1“max_workers”5“模式”“增强”],“库”“笔记本”“路径”"/Users/username/DLT notebook /Delta Live Tables quickstart (SQL)"],“目标”“wikipedia_quickstart_data”“连续”},“状态”“空闲”“cluster_id”“1234 - 567891 abcde123”“名称”维基百科管道(SQL)“creator_user_name”“用户名”“latest_updates”“update_id”“8 a0b6d02 - fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”“状态”“完成”“creation_time”“2021 - 08 - 13 - t00:37:30.279z”},“update_id”“a72c08ba——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”“状态”“取消”“creation_time”“2021 - 08 - 13 - t00:35:51.902z”},“update_id”“ac37d924——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”“状态”“失败”“creation_time”“2021 - 08 - 13 - t00:33:38.565z”],“run_as_user_name”“用户名”

响应结构

字段名

类型

描述

pipeline_id

字符串

管道的唯一标识符。

规范

PipelineSettings

管道设置。

状态

字符串

管道的状态。之一闲置运行

If state =运行,则至少有一个活动更新。

cluster_id

字符串

运行管道的集群的标识符。

的名字

字符串

此管道的用户友好的名称。

creator_user_name

字符串

管道创建者的用户名。

latest_updates

的数组UpdateStateInfo

管道的最新更新状态,首先以最新更新订购。

run_as_user_name

字符串

作为管道运行的用户名。

获取更新详细信息

端点

HTTP方法

2.0 /管道/ {pipeline_id} /更新/ {update_id}

得到

获取管道更新的详细信息。

例子

此示例获取更新的详细信息9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003为带ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

请求

—netrc -X GEThttps:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新/ 9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003

替换:

本例使用. netrc文件。

响应

“更新”“pipeline_id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“update_id”“9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003”“配置”“id”“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”“名称”维基百科管道(SQL)“存储”“/用户/用户名/数据”“配置”“pipelines.numStreamRetryAttempts”“5”},“集群”“标签”“默认”“自动定量”“min_workers”1“max_workers”5“模式”“增强”],“库”“笔记本”“路径”"/Users/username/DLT notebook /Delta Live Tables quickstart (SQL)"],“目标”“wikipedia_quickstart_data”“连续”“发展”},“原因”“API_CALL”“状态”“完成”“creation_time”1628815050279“full_refresh”真正的“request_id”“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”

响应结构

字段名

类型

描述

pipeline_id

字符串

管道的唯一标识符。

update_id

字符串

此更新的唯一标识符。

配置

PipelineSettings

管道设置。

导致

字符串

更新的触发器。之一API_CALLRETRY_ON_FAILURESERVICE_UPGRADE

状态

字符串

更新的状态。之一排队创建WAITING_FOR_RESOURCES初始化重置SETTING_UP_TABLES运行停止完成失败的,或取消了

cluster_id

字符串

运行管道的集群的标识符。

creation_time

INT64

创建更新时的时间戳。

full_refresh

布尔

这是否是一次全面的刷新。如果为真,则在运行更新之前重置所有管道表。

列表管道

端点

HTTP方法

2.0 /管道/

得到

列出Delta Live Tables系统中定义的管道。

例子

此示例检索名称包含的管道的详细信息快速入门

请求

—netrc -X GEThttps:// < databricks-instance > / api / 2.0 /管道?过滤器名字% 20 25快速入门% % 20% 27% 25% 27

替换:

本例使用. netrc文件。

响应

“状态”“pipeline_id”“e0f01758——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”“状态”“空闲”“名称”DLT快速入门(Python)“latest_updates”“update_id”“ee9ae73e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”“状态”“完成”“creation_time”“2021 - 08 - 13 - t00:34:21.871z”],“creator_user_name”“用户名”},“pipeline_id”“f4c82f5e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”“状态”“空闲”“名称”“我的DLT快速入门示例”“creator_user_name”“用户名”],“next_page_token”“eyJ…= =”“prev_page_token”“eyJ . . x9”

请求结构

字段名

类型

描述

page_token

字符串

由前一次调用返回的页令牌。

该字段可选。

max_results

INT32

在单个页面中返回的最大条目数。系统可能会返回小于max_results响应中的事件,即使有更多可用的事件。

该字段可选。

缺省值为25。

最大值为100。的值,则返回错误max_results大于100。

order_by

的数组字符串

指定结果顺序的字符串列表,例如,["的名字asc”).支持order_by字段是id而且的名字.默认为idasc

该字段可选。

过滤器

字符串

根据指定的条件选择结果的子集。

支持的过滤器是:

“笔记本= <路径>”选择引用所提供的笔记本路径的管道。

的名字就像“(模式)”以选择名称匹配的管道模式.支持通配符,例如:的名字就像“%购物%”

不支持复合过滤器。

该字段可选。

响应结构

字段名

类型

描述

状态

的数组PipelineStateInfo

匹配请求条件的事件列表。

next_page_token

字符串

如果存在,则为获取下一页事件的令牌。

prev_page_token

字符串

如果存在,则使用令牌获取事件的上一页。

数据结构

PipelinesAutoScale

定义自动伸缩集群的属性。

字段名

类型

描述

min_workers

INT32

集群在未充分利用时可以缩减到的最小工作者数。它也是集群创建后将拥有的初始工作者数量。

max_workers

INT32

集群在超载时可以扩展到的最大工作者数。Max_workers必须严格大于min_workers。

模式

字符串

集群的自动伸缩模式:

KeyValue

指定配置参数的键-值对。

字段名

类型

描述

关键

字符串

配置属性名。

价值

字符串

配置属性值。

NotebookLibrary

一种包含管道代码的笔记本的规范。

字段名

类型

描述

路径

字符串

笔记本的绝对路径。

该字段为必填项。

PipelineLibrary

管道依赖项的规范。

字段名

类型

描述

笔记本

NotebookLibrary

定义Delta Live Tables数据集的笔记本的路径。该路径必须在Databricks工作区中,例如:“笔记本”“路径”“/ my-pipeline-notebook-path”

PipelineSettings

管道部署的设置。

字段名

类型

描述

id

字符串

此管道的唯一标识符。

标识符是由Delta Live Tables系统创建的,在创建管道时不能提供。

的名字

字符串

此管道的用户友好的名称。

该字段可选。

缺省情况下,管道名称必须唯一。若要使用重复的名称,请设置allow_duplicate_names真正的在管道配置中。

存储

字符串

DBFS目录的路径,用于存储由管道创建的检查点和表。

该字段可选。

如果该字段为空,系统将使用默认位置。

配置

地图字符串:字符串

要添加到将要运行管道的集群的Spark配置中的键值对列表。

该字段可选。

元素必须格式化为键值对。

集群

的数组PipelinesNewCluster

用于运行管道的集群的规范数组。

该字段可选。

如果不指定,系统将为管道选择默认集群配置。

的数组PipelineLibrary

包含管道代码和运行管道所需的任何依赖项的笔记本。

目标

字符串

用于持久化管道输出数据的数据库名称。

看到从Delta Live Tables管道发布数据获取更多信息。

连续

布尔

这是否是一个连续的管道。

该字段可选。

默认值为

发展

布尔

是否在开发模式下运行管道。

该字段可选。

默认值为

光子

布尔

是否为该管道启用光子加速。

该字段可选。

默认值为

通道

字符串

Delta Live Tables发布通道,指定此管道使用的运行时版本。支持的值为:

  • 预览用即将对Delta Live Tables运行时进行的更改来测试管道。

  • 当前的使用当前的Delta Live Tables运行时版本。

该字段可选。

默认值为当前的

字符串

Delta Live Tables产品版运行管道:

  • 核心支持流摄取工作负载。

  • 还支持流摄取工作负载,并添加了对更改数据捕获(CDC)处理的支持。

  • 先进的的所有特性版本,并增加了对需要Delta Live Tables期望来执行数据质量约束的工作负载的支持。

该字段可选。

默认值为先进的

PipelineStateInfo

管道的状态、最新更新的状态以及有关关联资源的信息。

字段名

类型

描述

状态

字符串

管道的状态。之一闲置运行

pipeline_id

字符串

管道的唯一标识符。

cluster_id

字符串

运行管道的集群的唯一标识符。

的名字

字符串

管道的用户友好的名称。

latest_updates

的数组UpdateStateInfo

管道的最新更新状态,首先以最新更新订购。

creator_user_name

字符串

管道创建者的用户名。

run_as_user_name

字符串

作为管道运行的用户名。这是一个从管道所有者派生的只读值。

PipelinesNewCluster

管道集群规范。

Delta Live Tables系统设置以下属性。用户不能配置以下属性:

  • spark_version

字段名

类型

描述

标签

字符串

集群规范的标签默认的配置默认集群,或维护配置维护集群。

该字段可选。默认值为默认的

spark_conf

KeyValue

一个对象,包含一组可选的、用户指定的Spark配置键值对。您还可以通过将一串额外的JVM选项传递给驱动程序和执行程序spark.driver.extraJavaOptions而且spark.executor.extraJavaOptions分别。

使用实例Spark conf。{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

aws_attributes

AwsAttributes

与在Amazon Web Services上运行的集群相关的属性。如果在创建集群时未指定,则将使用一组默认值。

node_type_id

字符串

该字段通过单个值编码该集群中每个Spark节点可用的资源。例如,Spark节点可以针对内存或计算密集型工作负载进行配置和优化列表节点类型API调用。

driver_node_type_id

字符串

Spark驱动的节点类型。该字段是可选的;如果不设置,驱动节点类型将被设置为相同的值node_type_id上面的定义。

ssh_public_keys

的数组字符串

将添加到该集群中每个Spark节点的SSH公钥内容。可以使用对应的私钥以用户名登录ubuntu在端口2200.最多可以指定10个键。

custom_tags

KeyValue

一个对象,包含一组用于集群资源的标记。Databricks除了default_tags外,还使用这些标签标记所有集群资源。

请注意

  • 在计算优化和内存优化等遗留节点类型上不支持标记

  • Databricks最多允许45个自定义标记。

cluster_log_conf

ClusterLogConf

将Spark日志下发到长期存储目的地的配置。一个集群只能指定一个目标。如果提供了此配置,日志每隔一天就会被发送到目的地5分钟.驱动日志的目的为<目标> / < cluster-ID > /司机,执行器日志的目的地为<目标> / < cluster-ID > /执行人

spark_env_vars

KeyValue

包含一组用户指定的可选环境变量键值对的对象。表单(X,Y)的键值对按原样导出(即,出口X = Y),同时启动司机和工人。

以便指定额外的一组SPARK_DAEMON_JAVA_OPTS, Databricks建议将它们添加到SPARK_DAEMON_JAVA_OPTS美元如下例所示。这确保了所有默认的Databricks管理的环境变量也包括在内。

使用实例Spark环境变量。{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

init_scripts

的数组InitScriptInfo

存储init脚本的配置。可以指定任意数量的目的地。脚本按照提供的顺序依次执行。如果cluster_log_conf时,init脚本日志发送到<目标> / < cluster-ID > / init_scripts

instance_pool_id

字符串

集群所属实例池的可选ID。看到

driver_instance_pool_id

字符串

用于驱动程序节点的实例池的可选ID。您还必须指定instance_pool_id.看到实例池API 2.0

policy_id

字符串

一个集群政策ID。

num_workers或自动缩放

INT32PipelinesAutoScale

如果是num_workers,表示该集群应该拥有的工作节点的数量。一个集群有一个Spark驱动程序和num_workers执行程序,共num_workers + 1个Spark节点。

当读取集群的属性时,该字段反映所需的worker数量,而不是实际的worker数量。例如,如果集群从5个工作人员调整为10个工作人员,则该字段将更新以反映10个工作人员的目标大小,而在executor中列出的工作人员随着新节点的供应逐渐从5增加到10。

如果是自动伸缩,则需要参数根据负载自动上下伸缩集群。

该字段可选。

apply_policy_default_values

布尔

是否使用政策缺少集群属性的默认值。

UpdateStateInfo

管道更新的当前状态。

字段名

类型

描述

update_id

字符串

此更新的唯一标识符。

状态

字符串

更新的状态。之一排队创建WAITING_FOR_RESOURCES初始化重置SETTING_UP_TABLES运行停止完成失败的,或取消了

creation_time

字符串

创建此更新的时间戳。