Apache拼花是一个开源的,用于数据文件bob下载地址格式设计高效的数据存储和检索。它提供了高效的数据压缩和编码方案与处理大量复杂的数据增强性能。Apache拼花是设计为一个共同的交换格式批量和互动的工作负载。它类似于其他列存储文件格式中可用Hadoop,即RCFile和兽人。
Apache拼花是使用record-shredding和组装算法,实现,可以容纳复杂的数据结构,可以用来存储数据。镶木地板进行了优化处理大量复杂的数据和功能不同的方式高效的数据压缩和编码类型。这种方法是最好的特别是那些查询,需要阅读某些大型表列。拼花只能读取所需的列因此大大减少了IO。
CSV是一个简单和常见的格式,使用许多工具,如Excel,谷歌,和许多其他人。尽管CSV文件的默认格式数据处理管道它有一些缺点:
拼花已经帮助用户减少存储需求通过在大型数据集至少三分之一,此外,它大大提高了扫描和反序列化,因此总体成本。下表比较了储蓄以及加速获得的数据转换成从CSV拼花。
数据集 |
Amazon S3上大小 |
查询运行时间 |
数据扫描 |
成本 |
数据存储为CSV文件 |
1 TB |
236秒 |
1.15结核病 |
5.75美元 |
数据存储在Apache拼花格式 |
130 GB |
6.78秒 |
2.51 GB |
0.01美元 |
储蓄 |
当使用镶花少87% |
快34倍 |
数据扫描少99% |
99.7%的储蓄 |
开源bob下载地址三角洲湖项目构建和扩展了镶花格式之上,添加额外的功能像ACID事务对象存储云上,时间旅行,模式演化,和简单的DML命令(创建/更新/插入/删除/合并)。三角洲湖实现这些重要功能通过使用有序事务日志,使数据仓库的功能可能在云对象存储。BOB低频彩学习更多的砖博客深入三角洲湖:开箱事务日志。