什么是工作区文件?

工作区文件允许您在Databricks Repos中使用非笔记本文件。工作区文件可以是任何文件类型。常见的例子包括:

  • . py自定义模块中使用的文件。

  • 。海事文件,例如README.md

  • . csv或其他小数据文件。

  • . txt文件。

  • 日志文件。

Databricks Repos for Databricks Runtime 11.0及以上版本默认启用工作区文件。看到配置对工作区文件的支持

在Databricks Runtime 8.4及以上版本中,您可以在Databricks repo中同步、导入和读取非笔记本文件。您还可以在“Databricks”界面查看和编辑文件。

在Databricks Runtime 11.2及以上版本中,您可以在Databricks repo中以编程方式写入或删除工作区文件。

虽然Databricks笔记本电脑有不同的功能和支持,但在repo用户界面中,基本的文件操作对于工作区文件和笔记本电脑几乎是相同的。看到文件基本用法管理笔记本

配置对工作区文件的支持

要在Databricks Repos中处理非笔记本文件,必须运行Databricks Runtime 8.4或以上版本。您必须运行Databricks运行时11.2或以上版本才能以编程方式创建或删除工作区文件。

如果没有启用“回购中的文件”支持,您仍然会在Databricks回购中看到非笔记本文件,但不能使用它们。

管理员可以按照如下方式配置该特性:

  1. 管理控制台

  2. 单击工作空间设置选项卡。

  3. 回购控件中选择一个选项repo中的文件下拉。

要确保已应用所有配置,必须刷新浏览器并重新启动计算集群。

请注意

当您第一次启用Repos中的文件时,您可能需要打开Git对话框并执行拉操作来同步回购中的非笔记本文件。如果存在任何合并冲突,则会出现一个对话框,让您选择放弃冲突的更改或将更改推到新的分支。

已启用“在repo中确认文件”

您可以使用该命令% sh松材线虫病在一个笔记本内的回购,以检查文件中的回购是否启用。

  • 如果“Files in Repos”未启用,则响应为/砖/驱动程序

  • 如果启用了“Files in Repos”,则响应为/ Workspace /回购/ <路径笔记本目录>

从使用Databricks容器服务的集群中访问Repos中的文件

在运行Databricks Runtime 11.3及以上版本的集群上,您可以默认使用Databricks Container Services (DCS)在Repos中使用Files。

在Databricks Runtime 10.4 LTS和9.1 LTS版本中,可以通过配置dockerfile访问DCS集群的Repos中的文件。Databricks Runtime版本参考以下dockerfiles:

看到使用Databricks Container Services定制容器