笔记本画廊 按技术和用例划分的笔记本示例 Databricks的核心组件是数据科学工作区,这使得数据团队中的每个人都可以进行协作。数据团队中的每个人都使用协作笔记本环境:数据科学家、数据分析师、数据工程师和其他人。Databricks被广泛的行业用于同样广泛的用例集。本图库通过notebook展示了一些可能性,这些notebook可以轻松地导入到您自己的Databricks环境或免费社区版(CE). 三角洲湖 构建您的数据湖屋,并获得开放文件格式上的ACID事务、时间旅行、约束和更多信息 砖:7.6.x– not CE 深入三角洲湖 本文深入探讨了Delta Lake,这是一种开源存储格式,它将ACID事务引入Apache Spark™。 δ pyspark 数据管理 砖:8.0.x 使用三角洲湖从R 这是一个使用Delta Lake的快速入门,这是一个使用SparkR的开源存储格式。 r δ 数据管理 砖:7.6.x 教程:三角洲湖简介 Delta Lake:一种开源存储格式,将ACID事务引入Apache Spark和大数据工作负载。 δ pyspark 时间旅行 数据管理 考拉 轻松地将pandas数据科学代码从单节点移动到分布式集群 砖:7.6.x 从熊猫到考拉10分钟 这是对那些熟悉熊猫的人在大规模问题上过渡到考拉的温和介绍。 eda 熊猫 考拉 pyspark 机器学习 支持流行的机器学习框架,如TensorFlow, Spark MLlib, Horovod 砖:7.6.xw/GPU – not CE 使用PyTorch和Horovod进行分布式深度学习 学习如何使用Horovod在PyTorch中执行模型的分布式训练。 pytorch horovod 分布式训练 砖:8.1.x 用Spark构建一个流式ML应用程序 构建一个流式ML应用程序,使用Spark监控信用卡欺诈。 pyspark 欺诈检测 结构化流 砖:7.6.x 开始使用Spark MLlib 介绍如何将Spark MLlib库用于ML应用程序。 mllib pyspark 工程特性 hyperparameter搜索 砖:7.6.xw/GPU – not CE 从Spark到TensorFlow:简化数据转换 简化Spark dataframe的数据转换,用于TensorFlow。 pyspark petastorm tensorflow 分布式训练 砖:7.6.xw/GPU – not CE TensorFlow 2分布式深度学习 学习如何使用TensorFlow 2执行分布式训练。 tensorflow 深度学习 分布式训练 MLflow 对机器学习的端到端支持:从训练模型到将模型投入生产 砖:7.6.x 使用MLflow开始学习ML项目的日志记录 介绍用于ML工作流管理的MLflow日志API。 MLFLOW sckikit-learn 随机森林 砖:7.6.x 快速入门:如何使用MLflow流畅跟踪api 了解如何在MLflow中使用高级流畅跟踪api。 MLFLOW 流利的 sckikit-learn 随机森林 砖:7.6.x– not CE 用于表格数据的端到端机器学习示例 这是一个笔记本,展示了表格数据的端到端ML生命周期的示例。 MLFLOW sckikit-learn 随机森林 hyperparameter搜索 砖:8.0.x MLflow快速入门与R 学习如何在R中使用MLflow进行ML跟踪。 r MLFLOW Apache火花™ 为数据湖屋的数据工程和数据科学提供动力的分布式计算引擎 砖:8.1.x 传感器数据流应用程序 了解如何在Spark中为传感器数据应用程序使用结构化流。 sql pyspark 结构化流 砖:8.1.x 用Spark分析旧金山火灾电话 用火花ETL分析打给旧金山消防局的电话。 etl eda pyspark 砖:8.1.x 与Spark中的外部数据源交互 简要介绍如何从Spark访问外部数据源并与之交互。 sql udf 火花 scala 砖:8.1.x 结构化流实时应用程序 在Spark中实时数据的结构化流的语义介绍。 sql pyspark 结构化流 砖:8.0.x– not CE 使用用户定义函数(udf)扩展SparkR 学习如何通过使用R中的udf编写自定义函数来扩展SparkR的功能。 udf sparkr 分布式计算 砖:8.1.x 自适应查询执行 演示Spark 3.0中的自适应查询执行(AQE)。 sql pyspark 自适应查询执行(aqe) 用例 Databricks应用于许多行业,包括金融、零售、技术、制造等 砖:7.6.x 零售市场篮子分析 这是一本展示如何为零售执行市场篮子分析的笔记本。 零售 市场篮子分析 砖:7.6.x 用Spark扩展金融时间序列 使用Spark分析财务时间序列数据,以识别市场操纵。 pyspark 时间序列 欺诈检测 解决方案加速器 在五个不同的行业中使用Databricks的完整模板 探索解决方案