研究

三角洲湖:高性能酸表存储在云存储对象

作者:迈克尔•Armbrust如来佛Das,梨纹太阳,Burak•, Shixiong朱、成员Mukul没吃,约瑟夫·托雷斯(Herman van Hovell, Adrian Ionescu AlicjaŁuszczak, Michał́Switakowski, MichałSzafránski,小李,Takuya Ueshin, Mostafa身兼彼得•Boncz阿里Ghodsi Sameer Paranjpye《, Pieter Senster,雷诺新马泰Zaharia

下载论文

文摘

Amazon S3等云存储对象的一些地球上最大、最划算的存储系统,使人有吸引力的目标存储大型数据仓库和数据湖泊。不幸的是,他们的实现键值存储很难实现ACID事务和高性能:元数据操作,比如清单对象是昂贵的,和一致性保证是有限的。在本文中,我们目前的三角洲湖,一个开源酸表存储在云存储层对象最初开发的砖。三角洲湖使用事务日志,压缩到Apache拼花格式提供ACID属性,时间旅行,显著加快大型表格数据集的元数据操作(例如,能够快速搜索数十亿表分区的相关查询)。还利用这个设计上提供高级功能,如自动数据布局优化、插入、缓存和审计日志。三角洲湖表可以从Apache访问火花,蜂巢,转眼间,红移和其他系统。三角洲湖部署成千上万的砖产品的顾客每天处理艾字节的数据,最大的实例管理exabyte-scale数据集和数十亿的对象。


相关内容

作者:迈克尔Armbrust Ali Ghodsi雷诺新马泰Zaharia

作者:迈克尔•Armbrust如来佛Das约瑟夫•托雷斯Burak•, Shixiong朱,雷诺鑫,阿里•Ghodsi离子斯托伊卡,马泰Zaharia

作者:Firas Abuzaid Shoumik Palkar,彼得百利,马泰Zaharia

作者:迈克尔•Armbrust雷诺s鑫程丽安,阴淮河,戴维斯,约瑟夫·k·布拉德利Xiangrui孟,托马土耳其长袍,迈克尔·j·富兰克林,阿里•Ghodsi马泰Zaharia

作者:雷诺美国鑫,乔什·罗森,马泰Zaharia迈克尔·j·富兰克林,斯科特Shenker离子斯托伊卡