工作区库
工作区库作为本地存储库,从中创建集群安装的库。工作区库可能是您的组织创建的自定义代码,也可能是您的组织标准化的开源库的特定版本。
必须在集群上安装工作区库,才能在笔记本或作业中使用它。
共享文件夹中的工作空间库对工作空间中的所有用户可用,而用户文件夹中的工作空间库仅对该用户可用。
创建一个工作区库
上传Jar、Python卵或Python轮
请注意
安装Python eggs已弃用,并将在未来的Databricks Runtime版本中删除。
在库源按钮列表中,选择上传.
选择Jar,Python蛋,或Python Whl.
可选地输入库名称。
将Jar、Egg或Whl拖到下拉框或单击下拉框并导航到文件。文件上传至
dbfs: / FileStore / jar
.点击创建.库状态屏幕将显示出来。
(可选)在集群上安装库.
引用一个上传的jar、Python蛋或Python轮
如果您已经将jar、egg或wheel上传到对象存储中,则可以在工作区库中引用它。
您可以选择DBFS中的库或存储在S3中的库。
选择DBFS / S3在库源按钮列表中。
选择Jar,Python蛋,或Python Whl.
可选地输入库名称。
指定库的DBFS或S3路径。
点击创建.库状态屏幕将显示出来。
(可选)在集群上安装库.
PyPI包
在库源按钮列表中,选择PyPI.
输入PyPI包名。要安装某个库的特定版本,请使用以下格式安装该库:
<图书馆> = = <版本>
.例如,scikit-learn = = 0.19.1
.在Repository字段中,可选地输入PyPI存储库URL。
点击创建.库状态屏幕将显示出来。
(可选)在集群上安装库.
Maven或Spark包
在库源按钮列表中,选择Maven.
指定Maven坐标。做以下其中一件事:
在Coordinate字段中,输入要安装的库的Maven坐标。Maven坐标在表单中
groupId: artifactId:版本
;例如,com.databricks: spark-avro_2.10:1.0.0
.如果您不知道确切的坐标,请输入库名称并单击搜索包.将显示匹配包的列表。若要显示包的详细信息,请单击其名称。您可以按名称、组织和等级对包进行排序。您还可以通过在搜索栏中编写查询来过滤结果。结果会自动刷新。
选择Maven中央或火花包在左上方的下拉列表中。
在“发布”列中选择软件包版本。
点击+选择在一个包裹旁边。用所选的包和版本填充Coordinate字段。
在Repository字段中,可选地输入Maven存储库URL。
请注意
不支持内部Maven存储库。
在除外责任字段,可选地提供
groupId
和artifactId
您想要排除的依赖项;例如,log4j: log4j
.点击创建.库状态屏幕将显示出来。
(可选)在集群上安装库.
查看工作区库详细信息
转到包含库的工作区文件夹。
单击库名称。
库详细信息页面显示正在运行的集群和安装状态图书馆的。如果安装了库,则该页包含到包主机的链接。如果库已上传,页面将显示到上传的包文件的链接。