三角洲湖:高性能酸表存储在云存储对象
文摘
Amazon S3等云存储对象的一些地球上最大、最划算的存储系统,使人有吸引力的目标存储大型数据仓库和数据湖泊。不幸的是,他们的实现键值存储很难实现ACID事务和高性能:元数据操作,比如清单对象是昂贵的,和一致性保证是有限的。在本文中,我们目前的三角洲湖,一个开源酸表存储在云存储层对象最初开发的砖。三角洲湖使用事务日志,压缩到Apache拼花格式提供ACID属性,时间旅行,显著加快大型表格数据集的元数据操作(例如,能够快速搜索数十亿表分区的相关查询)。还利用这个设计上提供高级功能,如自动数据布局优化、插入、缓存和审计日志。三角洲湖表可以从Apache访问火花,蜂巢,转眼间,红移和其他系统。三角洲湖部署成千上万的砖产品的顾客每天处理艾字节的数据,最大的实例管理exabyte-scale数据集和数十亿的对象。