在Databricks作业中使用Python转轮

一条巨蟒是一种打包和分发运行Python应用程序所需文件的标准方式。使用Python wheel任务,您可以确保在Databricks作业中快速可靠地安装Python代码。本文提供了一个创建Python转轮和运行转轮中打包的应用程序的作业的示例。在这个例子中,你将:

  • 创建定义示例应用程序的Python文件。

  • 将示例文件捆绑到Python轮中。

  • 创建一个作业来运行Python转轮。

  • 运行作业并查看结果。

在开始之前

你需要以下内容来完成这个例子:

  • Python3

  • Python而且setuptool包。你可以使用皮普安装这些包。例如,执行如下命令安装这些软件包:

    PIP安装车轮设置工具

步骤1:为本例创建一个本地目录

创建一个本地目录来保存示例代码和生成的构件,例如,databricks_wheel_test

步骤2:创建示例Python脚本

下面的Python示例是一个简单的脚本,它读取输入参数并打印出这些参数。复制此脚本并将其保存到名为my_test_code / __main__.py在上一步创建的目录中。

”“”Python轮的入口点”“”进口sysdef主要():这个方法将打印所提供的参数打印“来自我的家人的问候”打印的参数:打印sysargv如果__name__==“__main__ '主要()

步骤3:为包创建元数据文件

下面的文件包含描述包的元数据。将其保存到名为my_test_code / __init__ . py在步骤1中创建的目录中。

__version__“0.0.1”__author__“砖”

步骤4:创建轮子

将Python工件转换为轮子需要指定包元数据,例如包名和入口点。下面的脚本定义了这个元数据。

请注意

entry_points在这个脚本中定义的用于运行Databricks工作流中的包。在每个值中entry_points,之前的值(在这个例子中,运行)是入口点的名称,用于配置轮式任务。

  1. 将此脚本保存在一个名为setup . py在步骤1中创建的目录的根目录中:

setuptools进口设置find_packages进口my_test_code设置的名字“my_test_package”版本my_test_code__version__作者my_test_code__author__url“//www.neidfyre.com”author_email“john.doe@www.neidfyre.com”描述“我的测试轮”find_packages包括“my_test_code”]),entry_points“group_1”运行= my_test_code.__main__:主要的},install_requires“setuptools”
  1. 切换到步骤1中创建的目录,并运行以下命令将您的代码打包到车轮分布中:

    Python3 setup.py bdist_wheel

此命令创建转轮并将其保存到dist / my_test_package-0.0.1-py3.none-any.whl文件在您的目录。

第5步。创建一个Databricks作业来运行Python转轮

  1. 转到你的Databricks登陆页面,做以下其中一项:

    • 在侧栏中,单击工作图标工作流并点击创建作业按钮

    • 在侧栏中,单击新图标并选择工作菜单上的。

  2. 上出现的任务对话框中的任务选项卡中,取代为你的工作添加一个名字…比如你的工作名称,Python例子

  3. 任务名称,输入任务名称,例如:python_wheel_task

  4. 类型中,选择Python轮

  5. 包名,输入my_test_package.包名是赋给的名字中的变量setup . py脚本。

  6. 入口点,输入运行.方法中指定的值之一entry_pointssetup . py脚本。在这个例子中,运行是唯一定义的入口点。

  7. 点击添加依赖库.在添加依赖库对话框,在库类型,点击Python Whl.点击此处省略WHL并选择my_test_package-0.0.1-py3-none-any.whl在步骤4中创建的文件。

  8. 点击添加

  9. 参数中,选择位置参数关键字参数输入键和每个参数的值。位置参数和关键字参数都作为命令行参数传递给Python轮任务。

    • 要输入位置参数,请以json格式的字符串数组形式输入参数,例如:["第一参数”、“第一值”、“第二参数”、“第二价值”)

    • 单击,输入关键字参数+添加并输入一个键和值。点击+添加再次输入更多参数。

  10. 点击保存任务

步骤6:运行作业并查看作业运行的详细信息

点击立即运行按钮运行工作流。查看运行的详细信息,点击查看运行触发运行中的链接弹出或单击开始时间列中运行的工作运行视图。

运行完成时,输出将显示在输出面板,包括传递给任务的参数。

下一个步骤

有关创BOB低频彩建和运行Databricks作业的详细信息,请参见创建、运行和管理Databricks作业