管理工作空间存储

贵机构的私隐规定可能要求您:

  • 偶尔清除已删除的对象,如笔记本单元格、整个笔记本、实验或集群日志。

  • 中存储所有交互式笔记本结果根S3存储桶您的云帐户,而不是databicks管理的控制平面的默认位置,其中存储一些笔记本命令结果。

清除工作区对象

您可以删除工作区对象,例如整个笔记本、单个笔记本单元格、单个笔记本注释和实验,但它们是可恢复的。

永久清除已删除的工作空间对象:

  1. 管理控制台

  2. 单击工作空间设置选项卡。

  3. 存储部分,单击清洗旁边的按钮永久清除工作空间存储

  4. 单击清洗按钮。

  5. 点击是的,清洗来确认。

    警告

    一旦清除,工作空间对象是不可恢复的。

清除笔记本修订历史

永久清除笔记本修订历史:

  1. 管理控制台

  2. 单击工作空间设置选项卡。

  3. 旁边永久清除所有修订历史,选择要清除的时间范围。默认为24小时及以上

  4. 在时间框架旁边,单击清洗按钮。

  5. 单击清洗按钮。

  6. 点击是的,清洗来确认。

    警告

    一旦清除,修订历史记录是不可恢复的。

清除集群日志

永久清除工作空间中所有集群的Spark驱动日志和历史度量快照:

  1. 管理控制台

  2. 单击工作空间设置选项卡。

  3. 旁边永久清除集群日志,按清洗按钮。

  4. 点击是的,清洗来确认。

    警告

    一旦清除,集群日志是不可恢复的。

修改笔记本结果的存储位置

Notebook命令输出的存储方式取决于运行Notebook的方式。

在默认配置中:

  • 当你交互式地运行笔记本时通过点击运行在笔记本上:

    • 如果结果很小,则将它们存储在数据库中控制飞机,以及笔记本的命令内容和元数据。

    • 较大的结果存储在工作区的根S3存储桶在您的AWS帐户中。Databricks将此桶用于工作区系统数据和您的工作区数据DBFS根.Notebook结果存储在bucket的工作区系统数据部分,用户无法访问。

    • 图形图像和其他二进制对象总是单独存储在FileStore面积DBFS根

  • 当你把记笔记当成一项工作时通过调度或者点击现在运行在Jobs页面上,所有的结果都存储在工作区中根S3存储桶在你的账户上。

您可以将工作区配置为将所有交互式笔记本结果存储在您的云帐户中,而不管结果大小。

为交互式笔记本结果配置存储位置

您可以配置工作区,将所有交互式笔记本结果存储在AWS帐户中,而不是控制平面中。方法启用此特性管理控制台REST API.此配置对作为作业运行的笔记本没有影响,其结果默认情况下已经存储在您的AWS帐户中。

请记住以下几点:

  • 对此配置的更改仅对新结果有效。现有的笔记本结果不会被移动。

  • 一些关于结果的元数据,比如图表列名,继续存储在控制平面中。

  • 您的云提供商可能会增加存储成本。

  • 在读写结果时,网络和IO延迟可能会增加。

使用管理控制台将所有笔记本结果存储在您的帐户中

作为工作区管理员:

  1. 管理控制台

  2. 单击工作空间设置选项卡。

  3. 先进的部分,单击在客户帐户中存储交互式笔记本结果切换。

  4. 点击确认

使用REST API将所有笔记本结果存储在您的帐户中

使用REST API配置工作区,将所有笔记本结果存储在AWS帐户中:

  • 您必须是工作空间管理员。

  • 你需要一个个人访问令牌.下面的说明假设您已经配置了. netrc文件中包含您的个人访问令牌,以便您可以使用- n选项旋度命令。有关详细信息,请参阅上面引用的文章。

要获取当前设置,请调用得到/ workspace-conf端点和集合storeInteractiveNotebookResultsInCustomerAccount

curl -n——请求GET“https:// < databricks-instance > / api / 2.0 / workspace-conf吗?键= storeInteractiveNotebookResultsInCustomerAccount '

要使工作区能够在AWS帐户中存储交互式笔记本结果,请调用补丁/ workspace-conf端点和集合storeInteractiveNotebookResultsInCustomerAccount真正的在请求体中:

curl -n——请求PATCH“https:// < databricks-instance > / api / 2.0 / workspace-conf '——头“内容类型:文本/普通”——data-raw”{“storeInteractiveNotebookResultsInCustomerAccount”:“真正的”} '

要禁用该特性,请将相同的标志设置为

curl -n——请求PATCH“https:// < databricks-instance > / api / 2.0 / workspace-conf '——头“内容类型:文本/普通”——data-raw”{“storeInteractiveNotebookResultsInCustomerAccount”:“假”} '