三角洲湖是什么?

三角洲湖是提供了基础的优化存储层用于存储数据和表数据砖Lakehouse平台。bob体育客户端下载三角洲湖是bob下载地址开源软件扩展拼花和基于文件的事务日志数据文件ACID事务和可扩展的元数据处理。三角洲湖与Apache火花api完全兼容,并开发与结构化流紧密集成,允许您轻松地使用一个复制的数据批处理和大规模流媒体业务和提供增量处理。

三角洲湖是默认为所有操作数据砖存储格式。除非另有规定,所有表在砖三角洲表。砖最初三角洲湖协议,继续积极开发开源项目贡献。bob下载地址许多的优化和产品数据砖Lakehouse平台建立Apache火花和三角洲湖所提供的担保。bob体育客户端下载优化数据砖上的更多信息,请参阅优化建议砖

关于三角洲湖SQL命令的信息,供参考三角洲湖语句

三角洲湖事务日志有一个定义良好的开放的协议,它可以使用任何系统读取日志。看到三角洲事务日志协议

开始使用三角洲湖

默认情况下所有表砖是三角洲的表上。无论你是使用Apache火花DataFrames或SQL,你会得到所有的好处三角洲湖仅仅通过保存数据到lakehouse默认设置。

等基本的三角洲湖操作的例子创建表,阅读,写作,和更新数据,请参阅教程:三角洲湖

砖有许多建议三角洲湖的最佳实践

更新和修改三角洲湖表

原子事务与三角洲湖为更新数据和元数据提供许多选项。砖建议你避免直接与交互的数据和事务日志文件在三角洲湖文件目录,以避免损坏你的表。

增量和三角洲湖流的工作负载

三角洲湖为结构化流数据砖进行了优化。三角洲生活表简化基础设施进行功能扩展本地部署,增强扩展和管理数据依赖关系。

查询以前版本的一个表

每个写三角洲表创建一个新的表版本。您可以使用事务日志审查修改表和查询以前的表版本。看到工作与三角洲湖表的历史

三角洲湖模式改进

三角洲湖验证模式写,确保所有数据写入表中匹配的要求你设置。

与三角洲湖管理文件和索引数据

砖集许多三角洲湖的默认参数,影响数据文件的大小和数量的表中保留历史版本。三角洲湖使用元数据解析和物理数据布局的组合来减少文件扫描的数量来满足任何查询。

配置和审查三角洲湖设置

砖三角洲湖表的所有数据和元数据存储在云存储对象。可以设置很多配置在表级别或在引发会话。您可以回顾三角洲表来发现的细节配置选项。

数据管道使用湖和δ生活表

砖鼓励用户利用大奖章架构通过一系列的过程数据表数据清洗和丰富。三角洲生活表通过优化简化了ETL工作负载执行和自动化基础设施部署和扩展。

故障排除三角洲湖特性

不是所有三角洲湖特性在所有版本的砖运行时。你可以找到关于三角洲湖版本信息和常见问题的答案在接下来的文章:

三角洲湖API文档

对于大多数三角洲表上读和写操作,您可以使用火花SQL或Apache火花DataFrameapi。

对于三角洲Lake-spefic SQL语句,看看三角洲湖语句

砖确保二进制兼容性与三角洲湖在砖运行时api。查看三角洲湖API版本打包在每个砖运行时版本中,看到的系统环境部分相关的文章砖的运行时版本说明。三角洲湖为Python api存在,Scala, Java: