Apache拼花是静脉spaltenorientiertes Open-Source-Datendateiformat, das毛皮一张effiziente Datenspeicherung和-abfrage entwickelt,。Es bietet effiziente Datenkomprimierungs——麻省理工学院和Codierungsschemata verbesserter Leistung毛皮死Verarbeitung komplexer Daten在großen Mengen。Apache拼花是als gemeinsames Austauschformat毛皮批——和konzipiert interaktive工作负载。Es ahnelt anderen在Hadoopverfugbaren Dateiformaten毛皮Spaltenspeicherung死去,namlich RCFile和兽人。
Apache拼花将mithilfe des„Record-shredding-and-assembly”-Algorithmus implementiert, der死komplexen Datenstrukturen berucksichtigt,死zum Speichern der Daten verwendet了您能。拼花是毛皮死Massenverarbeitung komplexer Daten optimiert和bietet verschiedene Moglichkeiten苏珥effizienten Datenkomprimierung -codierung。这位拟设eignet西奇感兴趣皮毛Abfragen,死bestimmte Spalten来自静脉großen Tabelle革命得。拼花是在der拉赫,努尔死benotigten Spalten祖茂堂革命,和minimiert所以E / A erheblich死去。
CSV是静脉einfaches和gangiges格式,das冯十分工具是不是Excel,谷歌床单和zahlreichen anderen verwendet将。Obwohl CSV-Dateien das Standardformat毛皮Datenverarbeitungspipelines信德,weisen【周伟森】您einige Nachteile:汪汪汪
拼花帽子青年社Benutzern dabei geholfen,窝Speicherbedarf贝großen Datensatzen嗯mindestens静脉Drittel祖茂堂reduzieren。Daruber hinaus帽子es死扫描——和Deserialisierungszeit该死死Gesamtkosten erheblich verkurzt。在der folgenden Tabelle了Einsparungen和港口Beschleunigung自己不死去,死的军队死Konvertierung冯Daten来自CSV在铺erzielt了。
Datensatz |
在Amazon S3 Große |
Laufzeit der Abfrage |
Gescannte Daten |
这些 |
Als CSV-Dateien gespeicherte Daten |
1 TB |
236年Sekunden |
1、15结核病 |
75美元 |
Im Apache Parquet-Format gespeicherte Daten |
130 GB |
78 Sekunden |
2,51 GB |
0,1美元 |
Ersparnisse |
87%的女儿贝Verwendung冯拼花 |
34 Mal schneller |
99%的女儿gescannte Daten |
99年,7% Ersparnis |
Das Open-Source-Projekt三角洲湖baut auf民主党Parquet-Format和汪汪汪erweitert es的军队zusatzliche Funktionen是不是ACID-Transaktionen Cloud-Objektspeicher汪汪汪,Zeitreisen, Schemaentwicklung和einfache DML-Befehle(创建/更新/插入/删除/合并)。三角洲湖implementiert有这位wichtigen Funktionen军队死Verwendung进行geordneten Transaktionsprotokolls, das Data-Warehousing-Funktionalitat在Cloud-Objektspeicher ermoglicht。Weitere Informationen法登您Databricks-Blogpost化生深入三角洲湖:开箱事务日志。