工作区库

工作区库作为本地存储库,从中创建集群安装的库。工作区库可能是您的组织创建的自定义代码,也可能是您的组织标准化的开源库的特定版本。

必须在集群上安装工作区库,才能在笔记本或作业中使用它。

共享文件夹中的工作空间库对工作空间中的所有用户可用,而用户文件夹中的工作空间库仅对该用户可用。

创建一个工作区库

  1. 右键单击要存储库的工作区文件夹。

  2. 选择创建>库

    创建库

    出现“创建库”对话框。

    库选项
  3. 选择库源并遵循适当的程序:

上传Jar、Python卵或Python轮

请注意

安装Python eggs已弃用,并将在未来的Databricks Runtime版本中删除。

  1. 在库源按钮列表中,选择上传

  2. 选择JarPython蛋,或Python Whl

  3. 可选地输入库名称。

  4. 将Jar、Egg或Whl拖到下拉框或单击下拉框并导航到文件。文件上传至dbfs: / FileStore / jar

  5. 点击创建.库状态屏幕将显示出来。

  6. (可选)在集群上安装库

引用一个上传的jar、Python蛋或Python轮

如果您已经将jar、egg或wheel上传到对象存储中,则可以在工作区库中引用它。

您可以选择DBFS中的库或存储在S3中的库。

  1. 选择DBFS / S3在库源按钮列表中。

  2. 选择JarPython蛋,或Python Whl

  3. 可选地输入库名称。

  4. 指定库的DBFS或S3路径。

  5. 点击创建.库状态屏幕将显示出来。

  6. (可选)在集群上安装库

PyPI包

  1. 在库源按钮列表中,选择PyPI

  2. 输入PyPI包名。要安装某个库的特定版本,请使用以下格式安装该库:<图书馆> = = <版本>.例如,scikit-learn = = 0.19.1

  3. 在Repository字段中,可选地输入PyPI存储库URL。

  4. 点击创建.库状态屏幕将显示出来。

  5. (可选)在集群上安装库

Maven或Spark包

  1. 在库源按钮列表中,选择Maven

  2. 指定Maven坐标。做以下其中一件事:

    • 在Coordinate字段中,输入要安装的库的Maven坐标。Maven坐标在表单中groupId: artifactId:版本;例如,com.databricks: spark-avro_2.10:1.0.0

    • 如果您不知道确切的坐标,请输入库名称并单击搜索包.将显示匹配包的列表。若要显示包的详细信息,请单击其名称。您可以按名称、组织和等级对包进行排序。您还可以通过在搜索栏中编写查询来过滤结果。结果会自动刷新。

      1. 选择Maven中央火花包在左上方的下拉列表中。

      2. 在“发布”列中选择软件包版本。

      3. 点击+选择在一个包裹旁边。用所选的包和版本填充Coordinate字段。

  3. 在Repository字段中,可选地输入Maven存储库URL。

    请注意

    不支持内部Maven存储库。

  4. 除外责任字段,可选地提供groupIdartifactId您想要排除的依赖项;例如,log4j: log4j

  5. 点击创建.库状态屏幕将显示出来。

  6. (可选)在集群上安装库

凹口包

  1. 在库源按钮列表中,选择凹口

  2. 在Package字段中,输入包的名称。

  3. 在Repository字段中,可选地输入CRAN存储库URL。

  4. 点击创建.将显示库详细信息屏幕。

  5. (可选)在集群上安装库

请注意

CRAN镜像服务于库的最新版本。因此,如果您在不同的时间将库附加到不同的集群,您可能最终会得到不同版本的R包。若要了解如何在Databricks上管理和修复R包版本,请参阅知识库

查看工作区库详细信息

  1. 转到包含库的工作区文件夹。

  2. 单击库名称。

库详细信息页面显示正在运行的集群和安装状态图书馆的。如果安装了库,则该页包含到包主机的链接。如果库已上传,页面将显示到上传的包文件的链接。

移动工作区库

  1. 转到包含库的工作区文件夹。

  2. 单击下拉箭头菜单下拉到库名称的右侧并选择移动.将显示文件夹浏览器。

  3. 单击目标文件夹。

  4. 点击选择

  5. 点击确认并移动

删除一个工作区库

重要的

在删除工作区库之前,您应该卸载它来自所有集群。

删除一个工作空间库。

  1. 将库移动到Trash文件夹。

  2. 永久删除垃圾文件夹中的库或清空垃圾文件夹。