砖的Python开发人员

本节提供了一个指导发展的笔记本,在砖使用Python语言的工作。第一小节提供了常见的工作流和任务教程的链接。第二小节提供链接到api、图书馆和关键工具。

开始的基本工作流程是:

教程

以下教程提供了示例代码和笔记本学习常见的工作流。看到导入一个笔记本笔记本的例子说明导入到您的工作区。

交互式数据科学和机器学习

工程数据

生产机器学习,机器学习操作

在Python中调试笔记本

笔记本的例子说明了如何使用Python调试器(pdb)砖笔记本。使用Python调试器,您必须运行砖运行时的11.2或以上。

与砖运行时的12.1及以上,可以使用变量的探险家跟踪Python变量的当前值在笔记本上的UI。您可以使用变量explorer观察Python变量的值在步骤断点。

Python调试器例子笔记本

在新标签页打开笔记本

请注意

断点()不支持在IPython因此在砖笔记本电脑不工作。您可以使用进口pdb;pdb.set_trace ()而不是断点()

参考

以下部分列出关键特性和技巧来帮助你开始开发与Python砖。

Python api

运行的Python代码之外的砖砖内通常可以运行,反之亦然。如果你有现有的代码,将其导入数据砖开始。看到管理代码与笔记本和砖回购下面的细节。

砖可以运行的单机和Python分发工作负载。对于单机计算,您可以使用Python api和库像往常一样;例如,熊猫和scikit-learn将“只是工作。“对于Python分发工作负载,砖提供了两个流行的开箱即用的API:大熊猫火花,PySpark API。

熊猫API火花

请注意

考拉开源项目现在建议切换到熊猫API火花。熊猫API火花可以在集群上运行砖运行时的10.0(不支持)及以上。为集群运行砖运行时9.1 LTS下面,请使用考拉代替。

熊猫是一个Python包数据科学家常用的数据分析和处理。但是,大熊猫不规模大数据。熊猫API火花填补这一差距通过提供pandas-equivalent api, Apache火花。这开源API是一个理想选择数据科学家熟悉熊猫但不是Apache火花。

PySpark API

Apache火花PySpark是官方的Python API。这个API提供了更大的灵活性比熊猫API火花。这些链接为PySpark提供介绍和参考。

管理代码与笔记本和砖回购

砖的笔记本支持Python。这些笔记本提供Jupyter的功能相似,但随着添加如内置使用大数据可视化,Apache火花集成调试和性能监控、跟踪和MLflow集成机器学习实验。开始的导入一个笔记本。一旦你获得一个集群,你可以附加一个笔记本集群和运行笔记本

提示

完全重置你的笔记本,它可以是有用的重启iPython内核。对于Jupyter用户来说,“重新启动内核”选项在Jupyter对应分离和重新砖的笔记本。重新启动内核在Python笔记本,点击计算选择器在笔记本上附加工具栏和悬停在集群或SQL仓库列表中显示一个菜单。选择分离和重新。这分离的笔记本从集群和再植,重新启动Python的过程。

砖回购允许用户同步笔记本和其他文件和Git存储库。砖回购有助于代码版本控制和协作,它可以简化代码的完整存储库导入数据砖,查看过去的笔记本版本,与IDE集成开发。开始的克隆一个偏远的Git存储库。您可以打开或创建笔记本存储库的克隆,把笔记本一个集群,运行笔记本

集群和库

集群为任何规模的集群提供计算管理:从单节点集群到大型集群。您可以自定义集群硬件和库根据您的需要。通过数据科学家通常会开始工作创建一个集群或使用现有的共享的集群。一旦你获得一个集群,你可以附加一个笔记本集群或运行工作在集群上。

砖集群使用砖运行时,它提供了开箱即用的许多流行的库,包括Apache火花,三角洲湖,熊猫,等等。你也可以安装其他第三方或自定义Python库使用笔记本和工作。

  • 从默认的图书馆砖运行时。使用介绍砖运行时机器学习对机器学习的工作负载。预先安装的库的完整列表,请参阅砖的运行时版本

  • 定制您的环境中使用Notebook-scoped Python库,它允许您修改您的笔记本电脑或工作环境库从PyPI或其他存储库。的%皮普安装my_library神奇的命令安装my_library当前连接集群中的所有节点,而不干扰其他工作负载在共享的集群。

  • 安装将非python库作为集群库根据需要。

  • 更多细节,请参阅

可视化

砖Python的笔记本已经为许多类型的内置支持可视化。您还可以使用传统的可视化

您还可以使用第三方库可视化数据;有些预装砖的运行时,但你也可以安装自定义库。受欢迎的选项包括:

工作

你可以自动化Python如期工作负载或触发创建和运行数据砖的工作在砖。工作可以运行笔记本,Python脚本,和Python轮子。

  • 通过UI有关创建工作的详细信息,明白了创建一个工作

  • 砖sdk允许您创建、编辑和删除工作以编程方式。

  • 砖CLI提供了一个方便的命令行界面自动化工作。

提示

安排一个Python脚本,而不是笔记本,使用spark_python_task磁场下任务身体的创建工作的要求。

机器学习

砖支持多种机器学习(ML)工作负载,包括传统ML表格数据,深度学习计算机视觉和自然语言处理,推荐系统中,图形分析等等。关于机器学习的一般信息在砖上,看到的介绍砖机器学习

对于ML算法,您可以使用预先安装的库中介绍砖运行时机器学习,其中包括流行的Python工具如scikit-learn TensorFlow, Keras, PyTorch, Apache火花MLlib, XGBoost。你也可以安装自定义库

对机器学习操作(MLOps),砖提供了一个开源库MLflow托管服务。bob下载地址MLflow跟踪让您记录模型开发和保存模型可重用的格式;的MLflow模型注册允许您管理和自动化模型对生产的促进;和工作模型服务允许托管模型作为批处理和流媒体工作和休息的端点。的更多信息和示例,请参见MLflow指南或者是MLflow Python API文档

开始使用常见的机器学习工作负载,看到以下页面:

ide、开发工具和sdk

除了发展在砖笔记本的Python代码,您可以使用集成开发环境(ide)开发外部如PyCharm Jupyter, Visual Studio代码。外部发展环境和砖之间同步工作,有几个选项:

  • 代码:你可以使用Git同步代码。看到Git与砖回购的集成

  • 库和工作:您可以创建外部库(如车轮)和上传数据砖。这些库可以在进口砖笔记本,或者他们可以用来创造就业机会。看到创建和运行数据砖的工作

  • 远程机器上执行:你可以从你当地的IDE运行代码交互开发和测试。IDE可以与砖砖上执行Apache火花和大规模计算集群。学会使用砖连接创建这个连接,看到的使用ide砖

砖的sdk提供了一组支持自动化和集成与外部工具。您可以使用砖sdk管理资源集群和图书馆、代码和其他工作区对象,工作负载和工作等。看到砖sdk

在ide的更多信息,开发工具,和sdk,看到开发工具和指导

额外的资源