软件工程最佳实践笔记本

本文提供了一个实践介绍,演示了如何将软件工程最佳实践应用到砖笔记本,包括版本控制、代码共享、测试和可选的持续集成和持续交付或部署(CI / CD)。

在这个介绍,你会:

  • 添加笔记本砖回购的版本控制。

  • 提取的部分代码从一个笔记本变成一个可共享的模块。

  • 测试共享代码。

  • 运行笔记本从砖的工作。

  • 有选择地应用CI / CD共享代码。

需求

为了完成这个场景,您必须提供以下资源:

  • 一个远程存储库Git提供者砖支持。本文介绍使用GitHub。这个介绍假定你有一个GitHub库命名best-notebooks可用。(您可以给您的存储库一个不同的名称。如果你这样做,替换best-notebooks回购的名字和你在这介绍)。创建一个GitHub回购如果你不已经有一个了。

    请注意

    如果你创建一个新的回购,一定要初始化库至少有一个文件,例如自述文件。

  • 一个砖工作空间创建一个工作区如果你不已经有一个了。

  • 一个砖通用的集群在工作区中。笔记本电脑运行在设计阶段,你把笔记本电脑运行的通用集群。后来,这个介绍使用砖工作自动化运行集群上的笔记本电脑。(你也可以运行工作工作的集群乔布斯的一生中只存在。)创建一个通用的集群如果你不已经有一个了。

    请注意

    处理文件数据砖回购,参与集群必须安装砖运行时的8.4或更高。砖建议这些集群拥有最新的长期支持(LTS)版本安装,运行时10.4 LTS砖。

步骤1:设置砖回购

在这个步骤中,您连接现有的GitHub回购在现有数据砖砖回购的工作区。

让您的工作区连接到GitHub回购,你必须首先为您的工作区提供GitHub凭证,如果你没有这样做了。

步骤1.1:提供您的GitHub凭证

  1. 点击你的用户名在右上角的工作区,然后单击用户设置下拉列表中。

  2. 用户设置页面,点击Git集成

  3. Git集成选项卡,Git提供者中,选择GitHub

  4. Git供应商用户名或电子邮件GitHub,输入您的用户名。

  5. 令牌,输入您的GitHub个人访问令牌(经典)。这种个人访问令牌(经典)必须有回购工作流权限。

  6. 点击保存

步骤1.2:连接到GitHub回购

  1. 在侧边栏数据科学与工程砖机器学习环境中,点击回购

  2. 回购窗格中,单击添加回购

  3. 添加回购对话框:

    1. 点击克隆远程Git存储库

    2. Git存储库URL,输入GitHub克隆与HTTPSGitHub回购的URL。本文假设您的URL结尾best-notebooks.git例如,https://github.com/ < your-GitHub-username > / best-notebooks.git

    3. 在旁边的下拉列表Git存储库URL中,选择GitHub

    4. 离开回购的名字设置为您的回购的名称,例如best-notebooks

    5. 点击创建

步骤2:导入和运行笔记本

在这个步骤中,您现有的外部笔记本导入你的回购。你可以创建自己的笔记本预排,但加快速度,我们提供给你。

步骤2.1:创建一个回购工作分支

在这个步骤中,您创建一个分支eda在你的回购。这种能力使您工作文件和代码独立于你的回购主要分支机构,这是一个软件工程最佳实践。(你可以给你的分支一个不同的名称。)

请注意

在某些回购,主要分支可能被命名为代替。如果是这样,取代主要在这个介绍。

提示

如果你不熟悉在Git分支工作,明白了Git分支,分支简而言之在Git网站上。

  1. 如果回购面板不显示,然后在侧边栏数据科学与工程砖机器学习环境中,点击回购

  2. 如果你连接到的回购在前面的一步是不显示的回购窗格,然后选择您的工作区用户名和选择您连接到回购的名字在前面的步骤。

  3. 单击下拉箭头回购的名字,然后点击Git

  4. best-notebooks对话框中,单击+(创建分支)按钮。

    请注意

    如果你的回购以外有一个名字best-notebooks这个对话框的标题会有所不同,这里,在这个介绍。

  5. 输入eda然后按回车键。

  6. 关闭该对话框。

步骤2.2:笔记本导入回购

在这个步骤中,您现有的笔记本从另一个回购导入你的回购。这个笔记本做以下:

  1. CSV文件的副本owid / covid-19-dataGitHub库到集群的工作区中。这个CSV文件包含公众对COVID-19住院和重症监护指标的数据来自世界各地。

  2. CSV文件的内容读入熊猫DataFrame

  3. 过滤数据只包含指标从美国。

  4. 显示数据的阴谋。

  5. 拯救熊猫DataFrame作为熊猫API火花DataFrame

  6. 对熊猫API执行数据清理DataFrame火花。

  7. 熊猫API在火花DataFrame写道差值表在你的工作空间。

  8. 显示了三角洲表的内容。

虽然你可以创建自己的笔记本在你的回购,导入现有笔记本相反有助于加快这个介绍。在这个分支创建一个笔记本或移动现有的笔记本到这个分支而不是导入一个笔记本,看到的工作区文件基本用法

  1. 回购回购窗格中,单击下拉箭头回购的名字,然后点击创建>文件夹

  2. 新文件夹名称对话框中,输入笔记本电脑,然后单击创建文件夹

  3. 回购窗格中,单击回购的名称,单击旁边的下拉箭头笔记本电脑文件夹,然后单击进口

  4. 进口笔记本电脑对话框:

    1. 进口的中,选择URL

    2. 输入的原始内容的URLcovid_eda_raw笔记本的砖/ notebook-best-practices在GitHub回购。得到这个网址:

      1. https://github.com/databricks/notebook-best-practices

      2. 单击笔记本电脑文件夹中。

      3. 单击covid_eda_raw.py文件。

      4. 点击

      5. 复制完整的URL从web浏览器的地址栏进口笔记本电脑对话框。

        请注意

        进口笔记本电脑对话框使用Git公共存储库url。

    3. 点击进口

步骤2.3:运行笔记本

  1. 如果笔记本已经不显示了,回购回购面板,双击covid_eda_raw笔记本的内部笔记本电脑文件夹打开它。

  2. 在笔记本上,在旁边的下拉列表文件把这个笔记本,选择集群。

  3. 点击运行所有

  4. 如果有提示,单击附加&运行首先,连接和运行

  5. 等待笔记本运行。

笔记本完成运行后,在笔记本上应该可以看到数据的情节以及超过600行三角洲的原始数据表。如果集群不是已经开始运行这个笔记本时,可能需要几分钟的集群启动之前显示结果。

步骤2.4:检查笔记本和合并

在这个步骤中,您将您的工作保存到目前为止你的GitHub回购。然后将笔记本从工作分支合并到你的回购主要分支。

  1. 回购回购窗格中,单击eda分支。

  2. best-notebooks对话框,变化选项卡中,确保笔记本/ covid_eda_raw.py文件被选中。

  3. 总结(必需),输入添加笔记本

  4. 描述(可选),输入第一个版本笔记本。

  5. 点击提交和推

  6. 点击历史,或点击创建一个请求对git提供者在弹出的链接。

  7. 在GitHub,单击把请求选项卡中,创建拉请求,然后合并请求拉进主要分支。

  8. 在砖工作区,关闭best-notebooks如果它仍显示对话框。

步骤3:移动代码到一个共享模块

在这个步骤中,您将一些代码在你的笔记本为一组共享功能之外的你的笔记本。这使您能够使用这些函数与其他类似的笔记本电脑,它可以加速未来的编码和帮助确保更容易预测和笔记本的结果一致。分享这段代码还使您能够更容易地测试这些功能,作为软件工程最佳实践可以提高你的代码的整体质量。

步骤3.1:创建另一个回购工作分支

  1. 在您的工作空间回购回购窗格中,单击eda分支。

  2. best-notebooks对话框中,单击旁边的下拉箭头eda分支,并选择主要

  3. 单击按钮。如果提示继续拉,点击确认

  4. 单击+(创建分支)按钮。

  5. 输入first_modules,然后按Enter键。(你可以给你的分支一个不同的名称。)

  6. 关闭该对话框。

步骤3.2:笔记本导入回购

加快这个介绍,在这个分步导入另一个现有的笔记本电脑到你的回购。这个笔记本电脑做同样的事情以前的笔记本,除了这个笔记本将调用共享代码函数存储之外的笔记本。再次,你可以创建你自己的笔记本在你的实际代码做回购在这儿分享自己。

  1. 回购回购窗格中,单击旁边的下拉箭头笔记本电脑文件夹,然后单击进口

  2. 进口笔记本电脑对话框:

    1. 进口的中,选择URL

    2. 输入的原始内容的URLcovid_eda_modular笔记本的砖/ notebook-best-practices在GitHub回购。得到这个网址:

      1. https://github.com/databricks/notebook-best-practices

      2. 单击笔记本电脑文件夹中。

      3. 单击covid_eda_modular.py文件。

      4. 点击

      5. 复制完整的URL从web浏览器的地址栏进口笔记本电脑对话框。

        请注意

        进口笔记本电脑对话框使用Git公共存储库url。

    3. 点击进口

    请注意

    你可以删除现有的covid_eda_raw笔记本在这一点上,因为新covid_eda_modular笔记本是一个共享版本的第一个笔记本。然而,你可能仍然想保持以前的笔记本供比较的目的,即使你不会使用它了。

步骤3.3:增加笔记本支持共享代码的功能

  1. 回购回购窗格中,单击下拉箭头回购的名字,然后点击创建>文件夹

    请注意

    不点击旁边的下拉箭头笔记本电脑文件夹中。单击下拉箭头旁边你回购的名字。你想要这个进入回购的根源,不进了笔记本电脑文件夹中。

  2. 新文件夹名称对话框中,输入covid_analysis,然后单击创建文件夹

  3. 回购回购窗格中,单击旁边的下拉箭头covid_analysis文件夹,然后单击创建>文件

  4. 新文件的名字对话框中,输入transforms.py,然后单击创建文件

  5. 回购回购窗格中,单击covid_analysis文件夹,然后单击transforms.py

  6. 在编辑器窗口中,输入以下代码:

    进口熊猫作为pd由国家代码#过滤器。deffilter_country(pdf,国家=“美国”):pdf=pdf(pdfiso_code= =国家]返回pdf#主指标,填补缺失值。defpivot_and_clean(pdf,fillna):pdf(“价值”]=pdto_numeric(pdf(“价值”])pdf=pdffillna(fillna)pivot_table(=“价值”,=“指标”,指数=“日期”)返回pdf#创建兼容三角洲表的列名。defclean_spark_cols(pdf):pdf=pdfstr取代(”“,“_”)返回pdf#将索引列(与熊猫API火花)。defindex_to_col(df,colname):df(colname]=df指数返回df

提示

其他代码共享技术,请参阅砖笔记本之间共享代码

步骤3.4:添加共享代码的依赖关系

前面的代码有几个Python包依赖性使代码运行正常。在这个步骤中,您声明这些包的依赖关系。声明依赖性提高再现性通过使用精确定义的版本库。

  1. 回购回购窗格中,单击下拉箭头回购的名字,然后点击创建>文件

    请注意

    不点击旁边的下拉箭头笔记本电脑covid_analysis文件夹。你想要的包依赖关系列表进入回购的根文件夹,而不是笔记本电脑covid_analysis文件夹。

  2. 新文件的名字对话框中,输入,然后单击创建文件

  3. 回购回购窗格,点击,输入以下代码:

    请注意

    如果文件是不可见的,您可能需要刷新web浏览器。

    我https://pypi.org/simple attrs = = 21.4.0周期计= = 0.11.0 fonttools它= = 4.33.3 iniconfig = = 1.1.1 kiwisolver = = 1.4.2 matplotlib = = 3.5.1 numpy = = 1.22.3包装= = 21.3熊猫= = = = 1.4.2枕头9.1.0 pluggy = = 1.0.0 py = = 1.11.0 py4j = = 0.10.9.3 pyarrow = = 7.0.0 pyparsing = = 3.0.8 pyspark pytest = = = = 3.2.1版本7.1.2 python-dateutil = = 2.8.2 pytz = = 2022.1 6 = = 1.16.0 tomli = = 2.0.1 wget = = 3.2

    请注意

    前面的文件列出了具体的包的版本。为了更好的兼容性,可以交叉引用这些版本的安装在您的通用集群。看到您的集群的“系统环境”一节的砖在运行时版本砖的运行时版本

你的回购结构现在看起来应该像这样:

|——covid_analysis |”——变换。py |——笔记本电脑| | - covid_eda_modular |”——covid_eda_raw(可选)”,让

步骤3.5:重构笔记本运行

在这个步骤中,您运行covid_eda_modular笔记本,调用共享代码covid_analysis / transforms.py

  1. 回购回购面板,双击covid_eda_modular笔记本在笔记本电脑文件夹中。

  2. 在旁边的下拉列表文件把这个笔记本,选择集群。

  3. 点击运行所有

  4. 如果有提示,单击附加&运行首先,连接和运行

  5. 等待笔记本运行。

笔记本完成运行后,在笔记本您应当会看到类似的结果covid_eda_raw笔记本:一块数据以及超过600行的三角洲地区的原始数据表。这个笔记本的主要区别在于,一个不同的过滤器(一个使用iso_codeDZA而不是美国)。如果集群不是已经开始运行这个笔记本时,可能需要几分钟的集群启动之前显示结果。

第四步:测试共享代码

在这个步骤中,您从最后一步测试共享代码。然而,您想要测试这段代码没有运行covid_eda_modular笔记本本身。这是因为如果共享代码无法运行,笔记本本身可能无法运行。你想赶上失败在你的共享代码之前,先让你的主要的笔记本以后最终失败。这个测试技术是软件工程最佳实践。

提示

额外的方法为笔记本电脑测试,以及测试R和Scala笔记本,看到的单元测试的笔记本

步骤4.1:创建另一个回购工作分支

  1. 在您的工作空间回购回购窗格中,单击first_modules分支。

  2. best-notebooks对话框中,单击旁边的下拉箭头first_modules分支,并选择主要

  3. 单击按钮。如果提示继续拉,点击确认

  4. 单击+(创建分支)按钮。

  5. 输入first_tests,然后按Enter键。(你可以给你的分支一个不同的名称。)

  6. 关闭该对话框。

步骤4.2:添加测试

在这个步骤中,您使用pytest框架来测试您的共享代码。在这些测试中,您断言特定的测试结果是否实现。如果任何测试产生意想不到的结果,这个测试失败本身,因此测试失败的断言。

  1. 回购回购窗格中,单击下拉箭头回购的名字,然后点击创建>文件夹

  2. 新文件夹名称对话框中,输入测试,然后单击创建文件夹

  3. 回购回购窗格中,单击旁边的下拉箭头测试文件夹,然后单击创建>文件

  4. 新文件的名字对话框中,输入文档,然后单击创建文件

  5. 回购回购窗格中,单击测试文件夹,然后单击文档

  6. 在编辑器窗口中,输入以下测试数据:

    价值实体,iso_code、日期、指标,美国,美国,2022-04-17,每日ICU入住率,美国,美国,2022-04-17,每日ICU入住率每百万,4.1美国,美国,2022-04-17,每天医院入住率,10000年美国,美国,2022-04-17,每天医院入住率每百万,30.3美国,美国,2022-04-17,每周新医院录取,11000年美国,美国,2022-04-17,每周新入院每百万,32.8阿尔及利亚、DZA, 2022-04-18,每日ICU入住率,1010年阿尔及利亚、DZA, 2022-04-18,每日ICU入住率每百万,4.5阿尔及利亚、DZA, 2022-04-18,每天医院入住率,11000年阿尔及利亚、DZA, 2022-04-18,每天医院入住率每百万,30.9阿尔及利亚、DZA, 2022-04-18,每周新医院录取,10000年阿尔及利亚、DZA, 2022-04-18,每周新入院每百万,32.1

    请注意

    使用测试数据是一个软件工程最佳实践。这使您能够运行您的测试速度,依赖一小部分具有相同的数据格式作为你的真实数据。当然,你总是想确保这个测试数据准确地代表你的真实数据在运行测试之前。

  7. 回购回购窗格中,单击旁边的下拉箭头测试文件夹,然后单击创建>文件

  8. 新文件的名字对话框中,输入transforms_test.py,然后单击创建文件

  9. 回购回购窗格中,单击测试文件夹,然后单击transforms_test.py

  10. 在编辑器窗口中,输入以下的测试代码。这些测试使用标准pytest固定装置以及一个嘲笑内存熊猫DataFrame:

    #测试每一个转换函数。进口pytesttextwrap进口填满进口操作系统进口熊猫作为pd进口numpy作为npcovid_analysis.transforms进口*pyspark.sql进口SparkSession@pytest夹具defraw_input_df()- >pdDataFrame:”“”创建一个测试的输入数据集的基本版本,包括nan。”“”返回pdread_csv(“测试/文档”)@pytest夹具defcolnames_df()- >pdDataFrame:df=pdDataFrame(数据=[[0,1,2,3,4,5]],=(“每日ICU占用”,“每日ICU入住率每百万”,“每日医院入住率”,“每日医院入住率每百万”,“每周新住院”,“每周新入院每百万”])返回df#确保过滤器是否按预期运行。deftest_filter(raw_input_df):过滤后的=filter_country(raw_input_df)断言过滤后的iso_codedrop_duplicates()(0]= =“美国”#每日的测试数据已经nan ICU入住率;这应该得到填充为0。deftest_pivot(raw_input_df):旋转=pivot_and_clean(raw_input_df,0)断言旋转(“每日ICU占用”][0]= =0#测试列清洗。deftest_clean_cols(colnames_df):清洗=clean_spark_cols(colnames_df)cols_w_spaces=清洗过滤器(正则表达式=(”“))断言cols_w_spaces= =真正的#测试列创建索引。deftest_index_to_col(raw_input_df):raw_input_df(“col_from_index”]=raw_input_df指数断言(raw_input_df指数= =raw_input_dfcol_from_index)所有()

你的回购结构现在看起来应该像这样:

|——covid_analysis |”——变换。py |——笔记本电脑| | - covid_eda_modular |”——covid_eda_raw(可选)|——需求。|——testdata txt”,测试。csv”——transforms_test.py

步骤4.3:运行测试

加快这个介绍,在这个子步你使用导入的笔记本运行前的测试。这笔记本下载并安装测试的依赖Python包到您的工作空间,运行测试,并报告测试的结果。当你可以运行pytest从集群的网络终端,运行pytest从笔记本电脑更方便。

请注意

运行pytest所有文件的名字按照形式运行test_ * . py\ * _test.py在当前目录及其子目录。

  1. 回购回购窗格中,单击旁边的下拉箭头笔记本电脑文件夹,然后单击进口

  2. 进口笔记本电脑对话框:

    1. 进口的中,选择URL

    2. 输入的原始内容的URLrun_unit_tests笔记本的砖/ notebook-best-practices在GitHub回购。得到这个网址:

      1. https://github.com/databricks/notebook-best-practices

      2. 单击笔记本电脑文件夹中。

      3. 单击run_unit_tests.py文件。

      4. 点击

      5. 复制完整的URL从web浏览器的地址栏进口笔记本电脑对话框。

        请注意

        进口笔记本电脑对话框使用Git公共存储库url。

    3. 点击进口

  3. 如果笔记本已经不显示了,回购回购窗格中,单击笔记本电脑文件夹,然后双击run_unit_tests笔记本。

  4. 在旁边的下拉列表文件把这个笔记本,选择集群。

  5. 点击运行所有

  6. 如果有提示,单击附加&运行首先,连接和运行

  7. 等待笔记本运行。

笔记本完成运行后,在笔记本上应该可以看到信息的数量通过和失败的测试,以及其他相关的细节。如果集群不是已经开始运行这个笔记本时,可能需要几分钟的集群启动之前显示结果。

你的回购结构现在看起来应该像这样:

|——covid_analysis |”——变换。py |——笔记本电脑| | - covid_eda_modular | | - covid_eda_raw(可选)|”——run_unit_tests |——需求。|——testdata txt”,测试。csv”——transforms_test.py

第五步:创建一个工作运行笔记本

在前面的步骤,你测试你的共享代码手动和手动跑你的笔记本。在这个步骤中,您使用一个砖工作自动测试共享代码和运行您的笔记本,按需或定期。

步骤5.1:创建工作任务运行测试笔记本

  1. 在侧边栏数据科学与工程砖机器学习环境中,点击工作流

  2. 工作选项卡上,单击创建工作

  3. 添加一个名称为您的工作(这是旁边运行任务标签),输入covid_report

  4. 任务名称,输入run_notebook_tests

  5. 类型中,选择笔记本

  6. 中,选择Git

  7. 点击添加一个git参考

  8. Git信息对话框:

    1. Git存储库URL,输入GitHub克隆与HTTPSGitHub回购的URL。本文假设您的URL结尾best-notebooks.git例如,https://github.com/ < your-GitHub-username > / best-notebooks.git

    2. Git提供者中,选择GitHub

    3. Git参考(分支/标记/提交),输入主要

    4. 旁边Git参考(分支/标记/提交)中,选择分支

    5. 点击确认

  9. 路径,输入笔记本/ run_unit_tests。不添加. py文件扩展名。

  10. 集群,从上一步选择的集群。

  11. 点击创建

请注意

在这个场景中,砖不建议您使用时间表按钮在笔记本中描述创建和管理计划的笔记本工作定期安排工作运行这个笔记本。这是因为计划按钮创建一个工作通过使用最新的工作笔记本在工作区中回购的副本。相反,砖建议你按照前面的说明创建一个使用了最新的工作承诺版本的笔记本回购。

步骤5.2:创建工作任务运行主要的笔记本

  1. 单击+(你的工作在这里添加更多的任务)图标。

  2. 任务名称,输入run_main_notebook

  3. 类型中,选择笔记本

  4. 路径,输入笔记本/ covid_eda_modular。不添加. py文件扩展名。

  5. 集群,从上一步选择的集群。

  6. 点击创建任务

步骤5.3运行工作

  1. 点击现在运行

  2. 在弹出窗口中,单击查看运行

    请注意

    如果弹出消失得太快,然后执行以下操作:

    1. 在侧边栏数据科学与工程砖机器学习环境中,点击工作流

    2. 工作运行选项卡上,单击开始时间最新的工作价值covid_report工作列。

  3. 的工作结果,点击run_notebook_tests瓷砖,run_main_notebook瓷砖,或两者兼而有之。每个瓷砖上的结果是一样的,如果你自己的笔记本,一个接一个。

请注意

这个工作需跑去。设置这个工作定期运行,明白了添加一个工作进度表

(可选)第六步:设置回购测试代码和运行笔记本自动每次代码更改

在前面的步骤中,您使用一个工作自动测试您的共享代码和运行您的笔记本电脑在一个时间点或经常性。然而,你可能更喜欢触发测试时自动更改合并到GitHub回购。您可以执行自动化用CI / CD平台等bob体育客户端下载GitHub的行为

步骤6.1:建立GitHub访问您的工作区

在这个步骤中,您建立了一个GitHub操作工作流运行的工作只要更改合并到您的存储库工作区中。你这样做给GitHub独特的砖为访问令牌。

出于安全原因,砖不鼓励你给你的砖工作区GitHub用户的个人访问令牌。说明,请参阅GCP部分的运行砖笔记本GitHub的行动页面在GitHub的市场行为。

重要的

笔记本电脑运行的所有工作空间权限的身份令牌,所以砖建议使用一个服务主体。如果你真的想给你的砖工作区为个人用户的个人访问令牌GitHub勘探目的,你明白,出于安全考虑,砖不鼓励这种做法,看到指示创建工作区中用户的个人访问令牌

步骤6.2:添加GitHub行动工作流

在这个步骤中,您添加一个GitHub操作工作流运行run_unit_tests笔记本电脑只要有拉力要求回购。

这个分步存储GitHub操作工作流的文件存储在多个文件夹级别GitHub回购。GitHub的行动需要一个特定的嵌套文件夹层次结构存在于你的回购为了正常工作。要完成这一步,您必须使用GitHub回购的网站,因为砖回购的用户界面不支持创建嵌套文件夹层次结构。

  1. 在GitHub回购的网站,单击代码选项卡。

  2. 切换分支或标签下拉列表中,选择主要,如果尚未选中。

  3. 如果切换分支或标签下拉列表不显示找到或创建一个分支框中,单击主要一次。

  4. 找到或创建一个分支框中,输入adding_github_actions

  5. 点击创建分支:adding_github_actions从“主”

  6. 点击添加文件>创建新文件

  7. 命名您的文件,输入.github /工作流/ databricks_pull_request_tests.yml

  8. 在编辑器窗口中,输入以下代码。这段代码使用声明pull_request钩使用运行砖笔记本GitHub的行动运行run_unit_tests笔记本。

    在以下代码中,替换:

    • < your-workspace-instance-URL >与你的砖实例名

    • < your-access-token >前面生成的令牌。

    • < your-cluster-id >与你的目标集群ID

    的名字:运行测试pre-merge数据砖:pull_request:env:#这个值替换为您的工作区实例名。DATABRICKS_HOST:https:// < your-workspace-instance-name >工作:unit-test-notebook:运行在:ubuntu-latesttimeout-minutes:15步骤:- - - - - -的名字:检验回购使用:行动/ checkout@v2- - - - - -的名字:运行测试笔记本使用:砖/ run-notebook@main:databricks-token:< your-access-token >local-notebook-path:笔记本/ run_unit_tests.pyexisting-cluster-id:< your-cluster-id >git-commit:“$ {{github.event.pull_request.head.sha}}”#授予所有用户视图允许在笔记本的结果,这样他们就可以#看笔记本的结果,如果他们有相关的访问权限。access-control-list-json:>({“group_name”:“用户”,:“permission_level CAN_VIEW”}]run-name:“EDA转换助手模块单位测试”
  9. 选择直接提交到adding_github_actions分支

  10. 点击提交修改

  11. 代码选项卡上,单击比较&拉请求,然后创建提取请求。

  12. 在拉请求页面,等待图标旁边运行测试pre-merge数据砖/ unit-test-notebook (pull_request)显示一个绿色的复选标记。(它可能会花几分钟的图标出现。)如果有一个红色的X,而不是一个绿色的复选标记,点击细节为了找到原因。如果图标或细节不再显示,点击显示所有检查

  13. 如果出现绿色复选标记,合并请求拉进主要分支。

(可选)第七步:更新共享代码在GitHub触发测试

在这个步骤中,您做出改变共享代码,然后将改变到GitHub回购,这立即引发了自动测试,基于GitHub上一步的行动。

步骤7.1:创建另一个回购工作分支

  1. 在您的工作空间回购回购窗格中,单击first_tests分支和选择主要

  2. 单击按钮。如果提示继续拉,点击确认

  3. 单击+(创建分支)按钮。

  4. 输入trigger_tests,然后按Enter键。(你可以给你的分支一个不同的名称。)

  5. 关闭该对话框。

步骤7.2:改变共享代码

  1. 在您的工作空间回购回购面板,双击covid_analysis / transforms.py文件。

  2. 在这个文件的第三行,改变这行代码:

    由国家代码#过滤器。

    :

    由国家代码#过滤器。如果没有指定,用“美国”。

步骤7.3:改变触发测试检查

  1. 回购回购窗格中,单击trigger_tests分支。

  2. best-notebooks对话框,变化选项卡中,确保covid_analysis / transforms.py被选中。

  3. 总结(必需),输入更新评论

  4. 描述(可选),输入更新评论filter_country。

  5. 点击提交和推

  6. 点击历史,或点击创建一个将请求链接弹出,然后创建请求。另外,在GitHub,单击把请求选项卡,然后创建请求。

  7. 在拉请求页面,等待图标旁边运行测试pre-merge数据砖/ unit-test-notebook (pull_request)显示一个绿色的复选标记。(它可能会花几分钟的图标出现。)如果有一个红色的X,而不是一个绿色的复选标记,点击细节为了找到原因。如果图标或细节不再显示,点击显示所有检查

  8. 如果出现绿色复选标记,合并请求拉进主要分支。