与Databricks上的外部数据进行交互

Databricks Runtime提供了对流行数据源和格式的绑定,使从lakehouse导入和导出数据变得简单。本文提供的信息可以帮助您识别具有内置支持的格式和集成。您还可以发现扩展Databricks以与更多系统交互的方法。Databricks上的大多数数据都存在于云对象存储中。看到我的数据呢?

Databricks提供了许多优化数据加载和摄取

Databricks还支持SQL和DataFrame用户的查询联合。看到什么是查询联合?

如果您以前没有使用过Databricks读写数据,请考虑阅读DataFrames教程PythonScala.即使对于熟悉Apache Spark的用户,本教程也可能解决与访问云中数据相关的新挑战。

Partner Connect为许多企业解决方案提供了优化的、易于配置的集成。看到什么是Databricks Partner Connect?

在Databricks中可以使用哪些数据格式?

Databricks为Apache Spark原生支持的所有数据格式提供了内置的关键字绑定。Databricks使用Delta Lake作为读写数据和表的默认协议,而Apache Spark使用Parquet。

以下数据格式在Apache Spark DataFrames和SQL中都有内置的关键字配置:

Databricks还为加载提供了一个自定义关键字MLflow实验

在Databricks上处理流数据源

Databricks可以与流消息服务集成,将近乎实时的数据摄取到Databricks Lakehouse中。Databricks还可以在lakehouse中与其他流系统同步丰富和转换的数据。

结构化流提供了对Apache Spark支持的文件格式的本地流访问,但是Databricks推荐对大多数从云对象存储中读取数据的结构化流操作使用Auto Loader。看到什么是自动加载器?

将流消息摄取到Delta Lake允许您无限期地保留消息,从而允许您重放数据流,而不必担心由于保留阈值而丢失数据。

Databricks具有处理Avro、协议缓冲区和JSON数据有效负载中包含的半结构化数据字段的特定功能。要了解BOB低频彩更多信息,请参阅:

要了解BOB低频彩更多关于消息队列之间或消息队列之间流的特定配置,请参见:

哪些数据源通过JDBC连接到Databricks ?

你可以用JDBC连接多个数据源。Databricks Runtime包括许多JDBC数据库的驱动程序,但是您可能需要安装驱动程序或不同的驱动程序版本才能连接到您首选的数据库。支持的数据库包括:

Databricks集成了哪些数据服务?

以下数据业务需要配置连接设置、安全凭据和网络设置。您可能需要b谷歌Cloud帐户或Databricks工作区中的管理员或高级用户权限。有些还要求您创建一个Databricks图书馆并将其安装在集群中:

具有特殊考虑的数据格式

以下数据格式在使用时可能需要额外配置或特殊考虑:

  • Databricks建议加载图片作为二进制数据。

  • XML不受本机支持,但可以在安装库后使用。

  • 蜂巢表也由Apache Spark本地支持,但需要在Databricks上进行配置。

  • 数据块可以直接读取许多文件格式,而仍然压缩。你也可以解压缩文件如有必要,在Databricks上。

  • LZO需要安装编解码器。

有关Apache Spark数据源的更多信息,请参见通用加载/保存函数通用文件源选项