在砖与外部数据

砖运行时提供的绑定流行的数据来源和格式导入和导出数据的lakehouse简单。这篇文章提供的信息来帮助您确定格式和集成的内置支持。你也可以发现方法来扩展数据砖与更系统。大多数砖住在云数据对象存储。看到我的数据在哪里?

砖的优化提供了许多数据加载和摄入

砖还支持查询联合会。看到使用Lakehouse联合运行查询

如果你还没有读或写数据与砖之前,考虑评估DataFrames教程PythonScala。甚至为用户熟悉Apache火花,本教程可能解决新的挑战与访问云中的数据相关。

合作伙伴连接提供了优化,本文介绍了许多企业解决方案的集成。看到砖的合作伙伴的连接是什么?

您可以使用哪些数据格式在砖吗?

砖有内置的关键字绑定所有的本地数据格式支持Apache火花。砖使用三角洲湖作为默认协议用于读取和写入数据和表,而Apache火花使用拼花。

以下数据格式都有内置在Apache火花DataFrames和SQL关键字配置:

砖还提供了一个加载自定义关键字MLflow实验

在砖处理流数据来源

砖可以与实时数据流信息服务集成砖Lakehouse摄入。砖也可以同步lakehouse丰富和改变了数据与其他流媒体系统。

结构化流提供了本地流访问Apache火花所支持的文件格式,但砖建议自动加载程序对大多数结构化流从云对象存储读取数据的操作。看到自动加载器是什么?

摄取流消息三角洲湖允许你无限期的保留信息,允许您回放数据流没有害怕失去数据由于保留阈值。

砖有特定功能的处理半结构化数据字段中包含Avro协议缓冲区和JSON数据有效载荷。欲了解BOB低频彩更多,请看:

了解更BOB低频彩多关于特定配置的流或消息队列,见:

与JDBC数据源连接什么砖?

您可以使用JDBC与许多数据源连接。砖运行时包括司机的JDBC数据库,但是您可能需要安装一个驱动程序或不同的驱动程序版本数据库连接到您的首选。支持数据库包括以下:

你可能更喜欢Lakehouse联合查询外部数据库管理系统。看到使用Lakehouse联合运行查询

砖集成的什么数据服务?

以下数据服务需要你配置连接设置,安全凭据,和网络设置。您可能需要管理员或超级用户特权在谷歌云账户或砖工作区。有些还要求您创建一个砖图书馆并安装在集群:

你可能更喜欢Lakehouse联合查询外部数据库管理系统。看到使用Lakehouse联合运行查询

数据格式有特殊考虑

以下数据格式可能需要额外的配置或使用特殊的注意事项:

  • 砖建议装载图片作为二进制数据。

  • XML本地不支持,但是可以使用在安装一个图书馆。

  • 蜂巢表本地也支持Apache的火花,但在砖需要配置。

  • 砖可以直接读过很多文件格式,同时压缩。你也可以解压压缩文件在必要时砖。

  • LZO需要一个编解码器安装。

关于Apache火花数据源的更多信息,请参阅通用的加载/保存功能通用文件源选项