拼花

回到术语表

拼花란무엇입니까?

Apache铺는효율적인데이터스토리지와검색을지원하도록설계되었으며,컬럼중심의오픈소스데이터파일형식입니다。복잡한데이터를일괄적으로처리하는기능을더욱향상하여효율적인데이터압축및인코딩방식을제공합니다。Apache铺는배치및인터랙티브워크로드에공통적인상호교환형식을제공하도록설계되었습니다。하둡에서제공하는다른컬럼형스토리지파일형식(즉,RCFile및兽人)과유사합니다。

拼花의특징

무료오픈소스파일형식을사용합니다。
언어를가리지않습니다。
컬럼기반형식——파일이행이아니라열로구성되어,스토리지공간이절약되고분석쿼리속도가향상됩니다。
분석(olap)사용사례，그중에서도기존의oltp데이터베이스와함께사용하는사용사례에사용됩니다。
데이터압축과해제의효율이매우높습니다．
복잡한데이터유형과고급중첩데이터구조를지원합니다。

拼花의장점

모든종류의빅데이터를저장하는데적합합니다(구조적데이터테이블，이미지，동상，문서)。
매우효율적인컬럼전체압축방식,그리고다양한데이터유형의컬럼에대한유연한인코딩방식을사용하여클라우드스토리지공간에저장합니다。
데이터건너뛰기등의기술을사용하여데이터처리량과성능을높였습니다．따라서특정컬럼값을가져오는쿼리는전체데이터행을읽을필가없습니다。

Apache Parquet는레코드조각내기및조립알고리즘을사용하여구현합니다。여기에는데이터저장에사용할수있는복잡한데이터구조가포함됩니다。镶木地板는복잡한데이터를대량으로다루는데최적화되어있으며다양한방식을동원해효율적인데이터압축과인코딩유형을제공합니다。이방식은특히대규모테이블에서특정컬럼을읽어야하는쿼리에가장좋습니다。Parquet는필한컬럼만읽으므로IO가대폭최소화되기때문입니다。

데이터를컬럼형식으로저장하면좋은점:

Apache铺와같은컬럼형식스토리지는CSV와같은행기반파일에비해효율성을개선하기위해고안한것입니다。컬럼형식스토리지는쿼리할때개연성이없는데이터는아주신속하게건너뛸수있습니다。따라서집계쿼리를수행할때행중심데이터베이스에비해시간이적게걸립니다。이런방식의스토리지를이용하면하드웨어를절약할수있고데이터액세스를위한레이턴시를최소화할수있습니다。
Apache Parquet는아무것도없는상태에서처음부터새롭게구축한것입니다。따라서고급중첩데이터구조를지원할수있습니다。镶木地板데이터파일의레이아웃은각각의파일마다기가바이트급에달하는대량의데이터를처리하는쿼리에최적화되어있습니다。
镶木地板는유연한압축옵션과효율적인인코딩방식을지원하도록구축되어있습니다。각컬럼의데이터유형이무척비슷하기때문에,각열을압축하기도간단합니다(그래서쿼리속도가한층더빨라짐)。데이터를압축하려면이용가능한여러코덱중하나만사용하면됩니다。따라서여러가지데이터파일을서로다른방식으로압축할수있습니다。
Apache Parquet는AWS Athena, Amazon Redshift Spectrum，谷歌BigQuery와谷歌Dataproc과같은터랙티브，서버리스기술과함께쓰면가장효과가좋습니다。

拼花와CSV의차이점

CSV는Excel,谷歌床单등의다양한여러도구를사용하는간단한공통적형식입니다。CSV파일이데이터처리파이프라인의기본형식은아니지만,몇가지장점이있는것은사실입니다。

亚马逊雅典娜와频谱의경우쿼리당스캔한데이터의양을근거로요금을부과합니다。
谷歌과亚马逊에서는GS / S3에저장된데이터양에따라사용료를부과합니다。
谷歌Dataproc의금제는시간기반입니다。

镶木地板는대규의모数据集스토리지요구사항을최소1/3줄여준데다가스캔과역직렬화에걸리는시간을대폭개선하여,결과적으로전체비용이크게절감해주는효과를냈습니다。다음표는데이터를CSV에서铺로변환하면얻을수있는속도개선과절약효과를정리한것입니다。

数据集	Amazon S3에서크기	쿼리런타임	스캔한데이터	비용
CSV파일로저장한데이터	1 tb	236年초	1.15结核病	5.75美元
Apache Parquet형식으로저장한데이터	130 gb	6.78초	2.51 gb	0.01美元
절약분	拼花사용시87%더적음	34배빠름	스캔한데이터양99%적음	99.7%절약

拼花및三角洲湖

오픈 소스三角洲湖프로젝트는拼花형식을기반으로개발하고，이를확장합니다。이과정에서클라우드개체스토리지의酸트랜잭션,시간이동,스키마전개,단순DML명령(创建/更新/插入/删除/合并)등의추가기능을추가합니다。三角洲湖는순서가정렬된트랜잭션로그를사용하여여러가지중요한기능을구현합니다。이로그를통해클라우드개체스토리지에서데이터웨어하우징기능을지원합니다。数据库블로그게시물三角洲湖심층분석:트랜잭션로그파헤치기에서자세히알아보세。

额外的资源

回到术语表