在Databricks作业中使用Python转轮
一条巨蟒轮是一种打包和分发运行Python应用程序所需文件的标准方式。使用Python wheel任务,您可以确保在Databricks作业中快速可靠地安装Python代码。本文提供了一个创建Python转轮和运行转轮中打包的应用程序的作业的示例。在这个例子中,你将:
创建定义示例应用程序的Python文件。
将示例文件捆绑到Python轮中。
创建一个作业来运行Python转轮。
运行作业并查看结果。
步骤2:创建示例Python脚本
下面的Python示例是一个简单的脚本,它读取输入参数并打印出这些参数。复制此脚本并将其保存到名为my_test_code / __main__.py
在上一步创建的目录中。
”“”Python轮的入口点”“”进口sysdef主要():这个方法将打印所提供的参数打印(“来自我的家人的问候”)打印(的参数:)打印(sys.argv)如果__name__==“__main__ ':主要()
步骤3:为包创建元数据文件
下面的文件包含描述包的元数据。将其保存到名为my_test_code / __init__ . py
在步骤1中创建的目录中。
__version__=“0.0.1”__author__=“砖”
步骤4:创建轮子
将Python工件转换为轮子需要指定包元数据,例如包名和入口点。下面的脚本定义了这个元数据。
请注意
的entry_points
在这个脚本中定义的用于运行Databricks工作流中的包。在每个值中entry_points
,之前的值=
(在这个例子中,运行
)是入口点的名称,用于配置轮式任务。
将此脚本保存在一个名为
setup . py
在步骤1中创建的目录的根目录中:
从setuptools进口设置,find_packages进口my_test_code设置(的名字=“my_test_package”,版本=my_test_code.__version__,作者=my_test_code.__author__,url=“//www.neidfyre.com”,author_email=“john.doe@www.neidfyre.com”,描述=“我的测试轮”,包=find_packages(包括=[“my_test_code”]),entry_points={“group_1”:运行= my_test_code.__main__:主要的},install_requires=[“setuptools”])
切换到步骤1中创建的目录,并运行以下命令将您的代码打包到车轮分布中:
Python3 setup.py bdist_wheel
此命令创建转轮并将其保存到dist / my_test_package-0.0.1-py3.none-any.whl
文件在您的目录。
第5步。创建一个Databricks作业来运行Python转轮
转到你的Databricks登陆页面,做以下其中一项:
在侧栏中,单击工作流并点击.
在侧栏中,单击新并选择工作菜单上的。
上出现的任务对话框中的任务选项卡中,取代为你的工作添加一个名字…比如你的工作名称,
Python轮例子
.在任务名称,输入任务名称,例如:
python_wheel_task
.在类型中,选择Python轮.
在包名,输入
my_test_package
.包名是赋给的名字
中的变量setup . py
脚本。在入口点,输入
运行
.方法中指定的值之一entry_points
在setup . py
脚本。在这个例子中,运行
是唯一定义的入口点。点击添加下依赖库.在添加依赖库对话框,在库类型,点击Python Whl.点击此处省略WHL并选择
my_test_package-0.0.1-py3-none-any.whl
在步骤4中创建的文件。点击添加.
在参数中,选择位置参数或关键字参数输入键和每个参数的值。位置参数和关键字参数都作为命令行参数传递给Python轮任务。
要输入位置参数,请以json格式的字符串数组形式输入参数,例如:
["第一参数”、“第一值”、“第二参数”、“第二价值”)
.单击,输入关键字参数+添加并输入一个键和值。点击+添加再次输入更多参数。
点击保存任务.
步骤6:运行作业并查看作业运行的详细信息
点击运行工作流。查看运行的详细信息,点击查看运行在触发运行中的链接弹出或单击开始时间列中运行的工作运行视图。
运行完成时,输出将显示在输出面板,包括传递给任务的参数。
下一个步骤
有关创BOB低频彩建和运行Databricks作业的详细信息,请参见创建、运行和管理Databricks作业.