砖实验室

Databricks Labs是由该领域创建的项目
帮助客户更快地将他们的用例投入生产!

DBX

该工具简化了跨多个环境的作业启动和部署过程。它还有助于以版本化的方式打包项目并将其交付到Databricks环境。它以cli优先的方式设计,被构建为在CI/CD管道中积极使用,并作为快速原型的本地工具的一部分。

节奏

这个项目的目的是提供一个API,用于在Apache Spark之上操作时间序列。功能包括使用滞后时间值,滚动统计(平均值,平均值,和,计数等),AS OF连接,以及下降采样和插值的特性。这一点已经在tb规模的历史数据上得到了验证。

马赛克

Mosaic是一个工具,通过将通用的开源地理空间库和Apache Spark™️绑定在一起,简化了可扩展的地理空间数据管道的实现。bob下载地址Mosaic还为常见的地理空间用例提供了一组示例和最佳实践。它为ST_表达式和GRID_表达式提供api,支持H3和英国国家电网等网格索引系统。

其他项目

看守

分析所有工作区中的所有作业和集群,以快速确定在哪些方面可以进行最大的调整,以提高性能并节省成本。

BOB低频彩了解更多→

JupyterLab集成

这个包允许从本地运行的JupyterLab连接到远程Databricks集群。

Github Sources→
BOB低频彩了解更多→

Splunk的集成

Splunk插件这款应用允许Splunk Enterprise和Splunk Cloud用户在Databricks中运行查询和执行操作,比如运行笔记本电脑和作业。

Github Sources→
BOB低频彩了解更多→

闷烧

Smolder提供了一个Apache Spark™SQL数据源,用于从中加载EHR数据HL7v2消息格式。此外,Smolder还提供了helper函数,可以在Spark SQL DataFrame上用于解析HL7消息文本,并从消息中提取段、字段和子字段。

Github Sources→
BOB低频彩了解更多→

Geoscan

基于Apache Spark ML估计器的基于密度的空间聚类六边形层次空间指数

Github Sources→
BOB低频彩了解更多→

AutoML工具包

Spark ML用于特征清理,特征重要性计算套件,信息增益选择,分布式SMOTE,模型选择和训练,超参数优化和选择,模型互操作性。

Github Sources→
BOB低频彩了解更多:
Broad AutoML博客
AutoML Toolkit博客违约贷款预测
家族Runner管道API博客

功能的工厂

一个加速器,提供在PySpark之上构建的api,考虑到优化、验证和重复数据删除,以简化和统一特性工程工作流程。

Github Sources→
BOB低频彩了解更多→

数据帧规则引擎

Scala Dataframe数据质量期望验证库。

Github Sources→

迁移

帮助客户在Databricks工作区之间迁移工件的工具。这允许客户导出配置和代码工件作为备份,或者作为不同工作区之间迁移的一部分。

Github Sources→
BOB低频彩了解更多:AWS|Azure

砖同步

用于同步源Databricks部署和目标Databricks部署的工具。

Github Sources→

蔡先生模板

cookiecutter用于自动化Databricks CI/CD管道创建和部署的项目模板。

Github Sources→
BOB低频彩了解更多→

数据生成器

为您的项目快速生成相关数据。Databricks数据生成器可用于生成大型模拟/合成数据集,用于测试、POCs和其他用途

Github Sources→
BOB低频彩了解更多→

DeltaOMS

集中德尔塔事务日志收集元数据和操作指标分析您的湖屋。

Github Sources→
BOB低频彩了解更多→

请注意,所有项目在https://github.com/databrickslabsDatabricks with Service Level Agreements (sla)并不正式支持该帐户。它们是按原样提供的,我们不作任何形式的保证。请不要提交与使用这些项目引起的任何问题有关的支持票。通过使用本项目发现的任何问题都应作为GitHub回购问题存档。在时间允许的情况下,将对它们进行审查,但是没有正式的sla来提供支持。