bob体育客户端下载平台的博客

在数据库上用回购生产数据科学

2021年3月16日 产品

分享这篇文章

大多数数据科学解决方案让数据团队在探索的灵活性和生产的刚性之间做出选择。因此,数据科学家经常需要将他们的工作交给使用不同技术堆栈的工程团队,并在新的环境中重写他们的工作。这不仅成本高昂,而且还会延迟数据科学家的工作向业务交付价值所需的时间。

通过与Git集成,Databricks Repos为数据科学和数据工程提供了一个最佳的开发环境。

下一代数据科学工作空间on Databricks导航这些权衡,为现代数据团队提供开放和统一的体验。作为Databricks Workspace的一部分,我们很高兴地宣布新的Repos特性的公开可用性,该特性提供了与Git提供者的存储库级集成,使数据团队的任何成员都能遵循最佳实践。Databricks Repos与您的开发人员工具包集成,支持广泛的Git提供商,包括Github, Bitbucket, Gitlab和Microsoft Azure DevOps。

通过与Git集成,Databricks Repos为数据科学和数据工程提供了一个最佳的开发环境。在将代码部署到生产环境之前,可以对在Databricks中开发的代码实施标准,例如代码审查、测试等。开发人员将在Repos中发现熟悉的Git功能,包括克隆远程Git Repos(图1)、管理分支、提取远程更改以及在提交之前可视化地检查未完成的更改(图2)。

通过添加远程Git回购,在Databricks工作区中开始使用Git回购
图1:要开始,只需提供要克隆的Git存储库的URL
开发人员可以在自己的开发分支上工作,提交代码并进行更改。在提交之前,可以在UI中检查未完成的更改。
图2:开发人员可以在他们自己的开发分支上工作,提交代码并进行更改。在提交之前,可以在UI中检查未完成的更改。

随着Repos的公开发布,我们正在添加功能以满足最苛刻的企业用例:

  • 允许列表允许管理员配置Git存储库的URL前缀,用户可以向其提交代码。这确保了代码不会意外地被推入不允许的存储库。
  • 秘密的检测在源代码中的明文秘密提交之前识别它们,帮助数据团队遵循使用秘密管理器的最佳实践。

Repos还可以与您的CI/CD管道集成,并允许数据团队将数据科学和机器学习(ML)代码从实验无缝地带入生产。使用Repos API(目前处于私有预览,请联系Databricks代表访问),您可以通过编程方式将Databricks Repos更新到远程分支的最新版本。这使您能够轻松实现CI/CD管道,例如以下最佳实践工作流:

  1. 发展:开发人员在用户文件夹中远程回购的个人签出上处理特性分支。
  2. 审查和测试:当一个特性已经准备好进行评审并创建PR时,您的CI/CD系统可以使用Repos API自动更新Databricks中的测试环境,并对特性分支进行更改,然后运行一组测试来验证这些更改。
  3. 生产:最后,一旦所有的测试都通过了,PR也得到了批准和合并,CI/CD系统就可以使用Repos API来更新Databricks中的生产环境。您的生产作业现在将根据最新的代码运行。

回购功能是下一代工作空间而且,通过这个公开发布,数据团队可以轻松地遵循最佳实践,并加快从探索到生产的过程。

开始

Repos图标将显示为启用了该功能的Databricks工作区。

回购是在公共预览,可以启用Databricks工作区!要启用回购,请转到管理面板->高级,然后单击“回购”旁边的“启用”按钮。BOB低频彩了解更多,请浏览我们的开发人员文档

免费试用Databricks
看到所有产品的帖子