Apache铺는효율적인데이터스토리지와검색을지원하도록설계되었으며,컬럼중심의오픈소스데이터파일형식입니다。복잡한데이터를일괄적으로처리하는기능을더욱향상하여효율적인데이터압축및인코딩방식을제공합니다。Apache铺는배치및인터랙티브워크로드에공통적인상호교환형식을제공하도록설계되었습니다。하둡에서제공하는다른컬럼형스토리지파일형식(즉,RCFile및兽人)과유사합니다。
Apache Parquet는레코드조각내기및조립알고리즘을사용하여구현합니다。여기에는데이터저장에사용할수있는복잡한데이터구조가포함됩니다。镶木地板는복잡한데이터를대량으로다루는데최적화되어있으며다양한방식을동원해효율적인데이터압축과인코딩유형을제공합니다。이방식은특히대규모테이블에서특정컬럼을읽어야하는쿼리에가장좋습니다。Parquet는필한컬럼만읽으므로IO가대폭최소화되기때문입니다。
CSV는Excel,谷歌床单등의다양한여러도구를사용하는간단한공통적형식입니다。CSV파일이데이터처리파이프라인의기본형식은아니지만,몇가지장점이있는것은사실입니다。
镶木地板는대규의모数据集스토리지요구사항을최소1/3줄여준데다가스캔과역직렬화에걸리는시간을대폭개선하여,결과적으로전체비용이크게절감해주는효과를냈습니다。다음표는데이터를CSV에서铺로변환하면얻을수있는속도개선과절약효과를정리한것입니다。
数据集 |
Amazon S3에서크기 |
쿼리런타임 |
스캔한데이터 |
비용 |
CSV파일로저장한데이터 |
1 tb |
236年초 |
1.15结核病 |
5.75美元 |
Apache Parquet형식으로저장한데이터 |
130 gb |
6.78초 |
2.51 gb |
0.01美元 |
절약분 |
拼花사용시87%더적음 |
34배빠름 |
스캔한데이터양99%적음 |
99.7%절약 |
오픈 소스三角洲湖프로젝트는拼花형식을기반으로개발하고,이를확장합니다。이과정에서클라우드개체스토리지의酸트랜잭션,시간이동,스키마전개,단순DML명령(创建/更新/插入/删除/合并)등의추가기능을추가합니다。三角洲湖는순서가정렬된트랜잭션로그를사용하여여러가지중요한기능을구현합니다。이로그를통해클라우드개체스토리지에서데이터웨어하우징기능을지원합니다。数据库블로그게시물三角洲湖심층분석:트랜잭션로그파헤치기에서자세히알아보세。