砖实验室

Databricks Labs是由该领域创建的项目
帮助客户更快地将他们的用例投入生产!

DBX

该工具简化了跨多个环境的作业启动和部署过程。它还有助于以版本化的方式打包项目并将其交付到Databricks环境。它以cli优先的方式设计，被构建为在CI/CD管道中积极使用，并作为快速原型的本地工具的一部分。

GitHub Sources→

文档→

博客→

节奏

这个项目的目的是提供一个API，用于在Apache Spark之上操作时间序列。功能包括使用滞后时间值，滚动统计(平均值，平均值，和，计数等)，AS OF连接，以及下降采样和插值的特性。这一点已经在tb规模的历史数据上得到了验证。

GitHub Sources→

文档→

网络研讨会→

马赛克

Mosaic是一个工具，通过将通用的开源地理空间库和Apache Spark™️绑定在一起，简化了可扩展的地理空间数据管道的实现。bob下载地址Mosaic还为常见的地理空间用例提供了一组示例和最佳实践。它为ST_表达式和GRID_表达式提供api，支持H3和英国国家电网等网格索引系统。

GitHub Sources→

文档→

博客→

其他项目

看守

分析所有工作区中的所有作业和集群，以快速确定在哪些方面可以进行最大的调整，以提高性能并节省成本。

BOB低频彩了解更多→

JupyterLab集成

这个包允许从本地运行的JupyterLab连接到远程Databricks集群。

Github Sources→
BOB低频彩了解更多→

Splunk的集成

Splunk插件这款应用允许Splunk Enterprise和Splunk Cloud用户在Databricks中运行查询和执行操作，比如运行笔记本电脑和作业。

Github Sources→
BOB低频彩了解更多→

闷烧

Smolder提供了一个Apache Spark™SQL数据源，用于从中加载EHR数据HL7v2消息格式。此外，Smolder还提供了helper函数，可以在Spark SQL DataFrame上用于解析HL7消息文本，并从消息中提取段、字段和子字段。

Github Sources→
BOB低频彩了解更多→

Geoscan

基于Apache Spark ML估计器的基于密度的空间聚类六边形层次空间指数．

Github Sources→
BOB低频彩了解更多→

AutoML工具包

Spark ML用于特征清理，特征重要性计算套件，信息增益选择，分布式SMOTE，模型选择和训练，超参数优化和选择，模型互操作性。

Github Sources→
BOB低频彩了解更多:
Broad AutoML博客
 AutoML Toolkit博客违约贷款预测
 家族Runner管道API博客

功能的工厂

一个加速器，提供在PySpark之上构建的api，考虑到优化、验证和重复数据删除，以简化和统一特性工程工作流程。

Github Sources→
BOB低频彩了解更多→

数据帧规则引擎

Scala Dataframe数据质量期望验证库。

Github Sources→

迁移

帮助客户在Databricks工作区之间迁移工件的工具。这允许客户导出配置和代码工件作为备份，或者作为不同工作区之间迁移的一部分。

Github Sources→
BOB低频彩了解更多:AWS|Azure

砖同步

用于同步源Databricks部署和目标Databricks部署的工具。

Github Sources→

蔡先生模板

cookiecutter用于自动化Databricks CI/CD管道创建和部署的项目模板。

Github Sources→
BOB低频彩了解更多→

数据生成器

为您的项目快速生成相关数据。Databricks数据生成器可用于生成大型模拟/合成数据集，用于测试、POCs和其他用途

Github Sources→
BOB低频彩了解更多→

DeltaOMS

集中德尔塔事务日志收集元数据和操作指标分析您的湖屋。

Github Sources→
BOB低频彩了解更多→

请注意，所有项目在https://github.com/databrickslabsDatabricks with Service Level Agreements (sla)并不正式支持该帐户。它们是按原样提供的，我们不作任何形式的保证。请不要提交与使用这些项目引起的任何问题有关的支持票。通过使用本项目发现的任何问题都应作为GitHub回购问题存档。在时间允许的情况下，将对它们进行审查，但是没有正式的sla来提供支持。