三角洲生活表自动真空管道没有运行

你必须有一个维护集群定义为真空自动运行。

写的priyanka.biswas

去年发表在:2023年2月2日

问题

默认支持auto-vacuum三角洲生活表。你设置一个增量表管道,但通知真空不是自动运行。

导致

δ生活表管道需要一个单独的维护集群配置(AWS|Azure|GCP),确保管道内设置真空自动运行。如果没有指定维护集群内的管道JSON文件或者维护集群没有访问您的存储位置,然后真空不运行。

示例配置

在这个例子中δ生活表管道JSON文件,有一个默认的标签标识的配置为默认集群。这还应该包含一个维护标签标识维护集群的配置。

自维护集群配置不存在,真空不自动运行。

AWS

{“集群”:[{“标签”:“默认”,“node_type_id”:“c5.4xlarge”、“driver_node_type_id”:“c5.4xlarge”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用“:”假“}”,aws_attributes”: {“instance_profile_arn”:“攻击:aws:…”} } ] }
删除

Azure

{“集群”:[{“标签”:“默认”,“node_type_id”:“Standard_D3_v2”、“driver_node_type_id”:“Standard_D3_v2”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用“:”假“}}}
删除

GCP

{“集群”:[{“标签”:“默认”,“node_type_id”:“n1-standard-4”、“driver_node_type_id”:“n1-standard-4”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用“:”假“}}}
删除

解决方案

三角洲的配置维护集群生活表管道JSON文件。

你必须指定集群配置两个不同的类型:

  • 默认集群执行所有处理。
  • 维护集群在日常运行维护任务。

每个集群使用标号字段标识。

维护集群是负责执行真空和其他维护任务。

AWS

{“集群”:[{“标签”:“默认”,“node_type_id”:“<实例类型>”,“driver_node_type_id”:“<实例类型>”,“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用“:”假“}”,aws_attributes”: {“instance_profile_arn”:“攻击:aws:…”} }, { "label": "maintenance", "aws_attributes": { "instance_profile_arn": "arn:aws:..." } } ] }
删除

信息

如果维护集群需要访问存储配置文件通过一个实例,您需要指定它instance_profile_arn

删除

Azure

{“集群”:[{“标签”:“默认”,“node_type_id”:“Standard_D3_v2”、“driver_node_type_id”:“Standard_D3_v2”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用”:“false”}},{“标签”:“维护”}]}
删除

信息

如果你需要使用Azure存储凭证湖透传数据,或另一个配置访问你的存储位置,指定它的默认集群和维护集群。

删除

GCP

{“集群”:[{“标签”:“默认”,“node_type_id”:“n1-standard-4”、“driver_node_type_id”:“n1-standard-4”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用”:“false”}},{“标签”:“维护”}]}
删除

信息

当使用集群政策配置三角洲集群生活表,你应该应用一个策略默认和维护集群。

删除


这篇文章有用吗?