与Databricks上的外部数据交互

Databricks运行时提供了对流行数据源和格式的绑定,使从湖屋导入和导出数据变得简单。本文提供的信息可帮助您识别具有内置支持的格式和集成。您还可以找到扩展Databricks以与更多系统交互的方法。Databricks上的大多数数据都存在于云对象存储中。看到我的数据呢?

Databricks提供了许多优化数据加载和摄取

Databricks还支持SQL和DataFrame用户的查询联合。看到什么是查询联合?

如果您以前没有使用Databricks读写过数据,请考虑查看DataFrames教程PythonScala.即使对于熟悉Apache Spark的用户,本教程也可能解决与访问云中数据相关的新挑战。

Partner Connect为许多企业解决方案提供了优化的、易于配置的集成。看到什么是Databricks Partner Connect?

在Databricks中可以使用什么数据格式?

Databricks为Apache Spark原生支持的所有数据格式提供了内置关键字绑定。Databricks使用Delta Lake作为读取和写入数据和表的默认协议,而Apache Spark使用Parquet。

以下数据格式在Apache Spark DataFrames和SQL中都有内置的关键字配置:

Databricks还为加载提供了自定义关键字MLflow实验

在Databricks上使用流数据源

Databricks可以与流消息服务集成,以便将接近实时的数据输入Databricks Lakehouse。数据库还可以与其他流系统同步湖中丰富和转换的数据。

结构化流提供了对Apache Spark支持的文件格式的本地流访问,但Databricks推荐将Auto Loader用于从云对象存储读取数据的大多数结构化流操作。看到什么是自动加载器?

摄取流消息到Delta Lake允许您无限期地保留消息,允许您重放数据流,而不必担心由于保留阈值而丢失数据。

Databricks具有处理Avro、协议缓冲区和JSON数据有效负载中包含的半结构化数据字段的特定功能。要了解BOB低频彩更多信息,请参见:

要了解BOB低频彩来自消息队列的流或流到消息队列的特定配置的详细信息,请参见:

哪些数据源使用JDBC连接到Databricks ?

你可以使用JDBC连接多个数据源。Databricks Runtime包含许多JDBC数据库的驱动程序,但您可能需要安装一个驱动程序或不同的驱动程序版本才能连接到首选的数据库。支持的数据库包括:

Databricks集成了哪些数据服务?

以下数据服务需要配置连接设置、安全凭据和网络设置。您可能需要AWS帐户或Databricks工作区中的管理员或高级用户权限。有些还要求您创建Databricks图书馆并安装在集群中:

具有特殊考虑的数据格式

以下数据格式可能需要额外配置或特殊考虑才能使用:

  • Databricks建议加载图片作为二进制数据。

  • XML本机不支持,但可以在安装库后使用。

  • 蜂巢表Apache Spark也支持,但需要在Databricks上进行配置。

  • 数据库可以在压缩的情况下直接读取许多文件格式。你也可以解压缩文件如有需要,在数据库里。

  • LZO需要安装编解码器。

有关Apache Spark数据源的更多信息,请参见通用的加载/保存函数而且通用文件源选项