三角洲湖是什么?

Delta Lake是经过优化的存储层,为Databricks Lakehouse平台中存储数据和表提供了基础。bob体育客户端下载三角洲湖bob下载地址开源软件使用基于文件的事务日志扩展Parquet数据文件ACID事务以及可伸缩的元数据处理。Delta Lake与Apache Spark api完全兼容,并与结构化流紧密集成,允许您轻松地使用单个数据副本进行批处理和流操作,并提供大规模增量处理。

Delta Lake是Databricks上所有操作的默认存储格式。除非另有说明,Databricks上的所有表都是Delta表。Databricks最初开发了Delta Lake协议,并继续积极地为开源项目做出贡献。bob下载地址Databricks Lakehouse平台中的许多优化和产品都建立在Apache Spark和Delta Lake提供的保证之上。bob体育客户端下载有关Databricks上的优化的信息,请参见关于数据库的优化建议

有关Delta Lake SQL命令的参考信息,请参见三角洲湖陈述

Delta Lake事务日志具有定义良好的开放协议,任何系统都可以使用该协议读取日志。看到Delta事务日志协议

我们从德尔塔湖开始

Databricks上的所有表默认都是Delta表。是否使用Apache SparkDataFrames或者SQL,您只需将数据保存到默认设置的湖屋,就可以获得Delta Lake的所有好处。

有关基本Delta Lake操作(如创建表、读取、写入和更新数据)的示例,请参见教程:三角洲湖

Databricks有许多建议三角洲湖的最佳实践

将数据转换和摄取到Delta Lake

Databricks提供了许多产品来加速和简化加载数据到您的湖屋。

有关摄入选项的完整列表,请参见将数据加载到Databricks Lakehouse

更新和修改Delta Lake表

Delta Lake的原子事务为更新数据和元数据提供了许多选项。Databricks建议您避免直接与Delta Lake文件目录中的数据和事务日志文件交互,以避免损坏您的表。

增量和流工作负载在三角洲湖

三角洲湖是优化的结构化流数据。Delta活动表通过简化基础设施部署、增强可伸缩性和托管数据依赖关系扩展本机功能。

查询表的以前版本

每次写入Delta表都会创建一个新的表版本。可以使用事务日志查看对表的修改,并查询以前的表版本。看到工作与三角洲湖表历史

Delta Lake模式增强

Delta Lake在写入时验证模式,确保写入表的所有数据都符合您设置的要求。

使用Delta Lake管理文件和索引数据

Databricks为Delta Lake设置了许多默认参数,这些参数会影响数据文件的大小和历史记录中保留的表版本的数量。Delta Lake结合使用元数据解析和物理数据布局来减少为完成任何查询而扫描的文件数量。

配置和检查Delta Lake设置

Databricks将Delta Lake表的所有数据和元数据存储在云对象存储中。许多配置可以在表级或Spark会话中设置。您可以查看Delta表的详细信息,以发现配置了哪些选项。

使用Delta Lake和Delta Live table的数据管道

Databricks鼓励用户利用a大奖章架构在清理和充实数据时,通过一系列表处理数据。Delta活动表通过优化执行和自动化基础设施部署和扩展简化ETL工作负载。看到Delta Live Tables快速入门

故障排除Delta Lake功能

并非所有版本的Databricks Runtime中都有Delta Lake的所有特性。您可以在以下文章中找到关于Delta Lake版本控制的信息和常见问题的答案:

Delta Lake API文档

对于Delta表上的大多数读写操作,可以使用火花SQL或Apache SparkDataFrameapi。

有关特定于Delta lake的SQL语句,请参见三角洲湖陈述

Databricks确保在Databricks运行时与Delta Lake api的二进制兼容性。要查看每个Databricks Runtime版本中打包的Delta Lake API版本,请参见Delta Lake API兼容性矩阵.Delta Lake api适用于Python、Scala和Java: