拼花

回到术语表

拼花是什么?

Apache拼花是一个开源的,用于数据文件bob下载地址格式设计高效的数据存储和检索。它提供了高效的数据压缩和编码方案与处理大量复杂的数据增强性能。Apache拼花是设计为一个共同的交换格式批量和互动的工作负载。它类似于其他列存储文件格式中可用Hadoop,即RCFile和兽人。

镶花的特点

  • 免费和开源文件格式bob下载地址。
  • 语言不可知论者。
  • 基于列的格式文件是由列,而不是行,可以节省存储空间和加速分析查询。
  • 用于分析(OLAP)用例,通常是结合传统OLTP数据库。
  • 高效数据压缩和解压缩。
  • 支持复杂的数据类型和先进的嵌套数据结构。

镶花的好处

  • 适合任何类型的存储大数据(结构化数据表格、图片、视频、文档)。
  • 保存在云存储空间通过使用高效列压缩,和灵活的编码方案,列有不同的数据类型。
  • 提高数据吞吐量和性能使用技术数据跳过,查询获取特定的列值不需要阅读整个行数据。
Apache拼花是使用record-shredding和组装算法,实现,可以容纳复杂的数据结构,可以用来存储数据。镶木地板进行了优化处理大量复杂的数据和功能不同的方式高效的数据压缩和编码类型。这种方法是最好的特别是那些查询,需要阅读某些大型表列。拼花只能读取所需的列因此大大减少了IO。

柱状的格式存储数据的优点:

  • 柱状存储诸如Apache拼花设计带来效率相比,基于行的CSV文件。查询时,柱状存储您可以跳过此无关的数据非常快。因此,聚合查询row-oriented数据库相比更耗时。这种存储方式转化为硬件储蓄和最小化延迟来访问数据。
  • Apache拼花是从头构建的。因此它能够支持高级的嵌套数据结构。拼花数据文件的布局优化对于处理大量数据的查询,在gb的范围为每个单独的文件中。
  • 拼花是建立支持灵活的压缩选项和高效的编码方案。每一列的数据类型很相似,每一列的压缩是非常简单的(这使得查询更快)。数据可以通过使用一个可用的几个编解码器压缩;因此,不同的数据文件可以被压缩不同。
  • Apache拼花效果最好等互动和serverless技术AWS雅典娜,亚马逊光谱红移,谷歌BigQuery和谷歌Dataproc。

镶木地板和CSV的区别

CSV是一个简单和常见的格式,使用许多工具,如Excel,谷歌,和许多其他人。尽管CSV文件的默认格式数据处理管道它有一些缺点:
  • 亚马逊雅典娜和频谱将收取每查询基于扫描的数据量。
  • 谷歌和亚马逊将收你根据的数据量存储在GS / S3。
  • 谷歌Dataproc指控是基于时间的。
拼花已经帮助用户减少存储需求通过在大型数据集至少三分之一,此外,它大大提高了扫描和反序列化,因此总体成本。下表比较了储蓄以及加速获得的数据转换成从CSV拼花。

数据集

Amazon S3上大小

查询运行时间

数据扫描

成本

数据存储为CSV文件

1 TB

236秒

1.15结核病

5.75美元

数据存储在Apache拼花格式

130 GB

6.78秒

2.51 GB

0.01美元

储蓄

当使用镶花少87%

快34倍

数据扫描少99%

99.7%的储蓄

镶木地板和三角洲湖

开源bob下载地址三角洲湖项目构建和扩展了镶花格式之上,添加额外的功能像ACID事务对象存储云上,时间旅行,模式演化,和简单的DML命令(创建/更新/插入/删除/合并)。三角洲湖实现这些重要功能通过使用有序事务日志,使数据仓库的功能可能在云对象存储。BOB低频彩学习更多的砖博客深入三角洲湖:开箱事务日志

额外的资源


回到术语表