砖实验室

Databricks Labs是由该领域创建的项目
帮助客户更快地将他们的用例投入生产!

DBX

该工具简化了跨多个环境的作业启动和部署过程。它还有助于以版本化的方式打包项目并将其交付到Databricks环境。它以cli优先的方式设计,被构建为在CI/CD管道中积极使用,并作为快速原型的本地工具的一部分。

节奏

这个项目的目的是提供一个API,用于在Apache Spark之上操作时间序列。功能包括使用滞后时间值,滚动统计(平均值,平均值,和,计数等),AS OF连接,以及下降采样和插值的特性。这一点已经在tb规模的历史数据上得到了验证。

马赛克

Mosaic是一个工具,通过将通用的开源地理空间库和Apache Spark™️绑定在一起,简化了可扩展的地理空间数据管道的实现。bob下载地址Mosaic还为常见的地理空间用例提供了一组示例和最佳实践。它为ST_表达式和GRID_表达式提供api,支持H3和英国国家电网等网格索引系统。

其他项目

看守

分析所有工作区中的所有作业和集群,以快速确定在哪些方面可以进行最大的调整,以提高性能并节省成本。

BOB低频彩了解更多→

Splunk的集成

Splunk插件这款应用允许Splunk Enterprise和Splunk Cloud用户在Databricks中运行查询和执行操作,比如运行笔记本电脑和作业。

Github Sources→
BOB低频彩了解更多→

闷烧

Smolder提供了一个Apache Spark™SQL数据源,用于从中加载EHR数据HL7v2消息格式。此外,Smolder还提供了helper函数,可以在Spark SQL DataFrame上用于解析HL7消息文本,并从消息中提取段、字段和子字段。

Github Sources→
BOB低频彩了解更多→

Geoscan

基于Apache Spark ML估计器的基于密度的空间聚类六边形层次空间指数

Github Sources→
BOB低频彩了解更多→

迁移

帮助客户在Databricks工作区之间迁移工件的工具。这允许客户导出配置和代码工件作为备份,或者作为不同工作区之间迁移的一部分。

Github Sources→
BOB低频彩了解更多:AWS|Azure

数据生成器

为您的项目快速生成相关数据。Databricks数据生成器可用于生成大型模拟/合成数据集,用于测试、POCs和其他用途

Github Sources→
BOB低频彩了解更多→

DeltaOMS

集中德尔塔事务日志收集元数据和操作指标分析您的湖屋。

Github Sources→
BOB低频彩了解更多→

请注意,所有项目在https://github.com/databrickslabsDatabricks with Service Level Agreements (sla)并不正式支持该帐户。它们是按原样提供的,我们不作任何形式的保证。请不要提交与使用这些项目引起的任何问题有关的支持票。通过使用本项目发现的任何问题都应作为GitHub回购问题存档。在时间允许的情况下,将对它们进行审查,但是没有正式的sla来提供支持。