拼花

砖KOSTENLOS TESTEN

拼花是什么?

Apache拼花是静脉spaltenorientiertes Open-Source-Datendateiformat, das毛皮一张effiziente Datenspeicherung和-abfrage entwickelt,。Es bietet effiziente Datenkomprimierungs——麻省理工学院和Codierungsschemata verbesserter Leistung毛皮死Verarbeitung komplexer Daten在großen Mengen。Apache拼花是als gemeinsames Austauschformat毛皮批——和konzipiert interaktive工作负载。Es ahnelt anderen在Hadoopverfugbaren Dateiformaten毛皮Spaltenspeicherung死去,namlich RCFile和兽人。

Eigenschaften冯拼花

  • Kostenloses Open-Source-Dateiformat。
  • Sprachunabhangig。
  • Spaltenbasiertes格式:Dateien了Spalten票和不去Zeilen organisiert,是Speicherplatz脱离和Analyseabfragen beschleunigt。
  • 将皮草Analyse-Anwendungsfalle verwendet (OLAP)麻省理工,typischerweise Verbindung herkommlichen OLTP-Datenbanken。
  • HocheffizienteDatenkomprimierung -dekomprimierung。
  • Unterstutzt komplexe Datentypen和erweiterte verschachtelte Datenstrukturen。

Vorteile冯拼花

  • 肠道zum Speichern冯大数据jeglicher艺术(strukturierte Datentabellen,《图片报》,视频,Dokumente)。
  • 脱离Cloud-Speicherplatz军队hocheffiziente spaltenweise Komprimierung和灵活Codierungsschemata毛皮Spalten麻省理工学院unterschiedlichen Datentypen。
  • Erhohter Datendurchsatz和hohere Leistung军队Techniken是不是das Uberspringen冯·Daten wobei Abfragen,死bestimmte Spaltenwerte abrufen,错的对整个革命Datenzeile得。

Apache拼花将mithilfe des„Record-shredding-and-assembly”-Algorithmus implementiert, der死komplexen Datenstrukturen berucksichtigt,死zum Speichern der Daten verwendet了您能。拼花是毛皮死Massenverarbeitung komplexer Daten optimiert和bietet verschiedene Moglichkeiten苏珥effizienten Datenkomprimierung -codierung。这位拟设eignet西奇感兴趣皮毛Abfragen,死bestimmte Spalten来自静脉großen Tabelle革命得。拼花是在der拉赫,努尔死benotigten Spalten祖茂堂革命,和minimiert所以E / A erheblich死去。

在einem Vorteile der Speicherung冯Daten Spaltenformat:

  • Spaltenspeicher是不是Apache拼花是im Vergleich祖茂堂zeilenbasierten Dateien是不是CSV auf Effizienz ausgelegt。贝姆Abfragen和Spaltenspeichern您能死错relevanten Daten sehr施耐尔uberspringen。Dadurch信德Aggregationsabfragen im Vergleich祖茂堂zeilenorientierten Datenbanken wenig zeitaufwandig。这张艺术der Speicherung帽子祖茂堂Hardwareeinsparungen和静脉minimierten Latenz贝姆Datenzugriff gefuhrt。
  • Apache拼花,冯neu entwickelt浅滩再见。大刀是es der拉赫,erweiterte verschachtelte Datenstrukturen祖茂堂unterstutzen。Das布局der Parquet-Datendateien是毛皮Abfragen optimiert,死große Datenmengen im Gigabyte-Bereich毛皮jede einzelne Datei verarbeiten。
  • 镶木地板unterstutzt灵活Komprimierungsoptionen和effiziente Codierungsschemata。Da der Datentyp毛皮jede Spalte ziemlich ahnlich坚持,坚持死Komprimierung jed Spalte unkompliziert (Abfragen还有schneller macht)。Daten能帮mithilfe进行der verschiedenen verfugbaren编解码器komprimiert了。Infolgedessen能帮verschiedene Datendateien unterschiedlich komprimiert了。
  • Apache铺funktioniert是besten麻省理工学院interaktiven和Serverless-Technologien是不是AWS雅典娜,亚马逊光谱红移,谷歌BigQuery和谷歌Dataproc。

Unterschiede来铺CSV

CSV是静脉einfaches和gangiges格式,das冯十分工具是不是Excel,谷歌床单和zahlreichen anderen verwendet将。Obwohl CSV-Dateien das Standardformat毛皮Datenverarbeitungspipelines信德,weisen【周伟森】您einige Nachteile:汪汪汪

  • 亚马逊在雅典娜和谱了basierend auf der pro Abfrage gescannten Datenmenge berechnet。
  • 谷歌和亚马逊berechnen您Gebuhr entsprechend der GS / S3 gespeicherten Datenmenge。
  • 死Gebuhren毛皮谷歌Dataproc信德zeitbasiert。

拼花帽子青年社Benutzern dabei geholfen,窝Speicherbedarf贝großen Datensatzen嗯mindestens静脉Drittel祖茂堂reduzieren。Daruber hinaus帽子es死扫描——和Deserialisierungszeit该死死Gesamtkosten erheblich verkurzt。在der folgenden Tabelle了Einsparungen和港口Beschleunigung自己不死去,死的军队死Konvertierung冯Daten来自CSV在铺erzielt了。

Datensatz

在Amazon S3 Große

Laufzeit der Abfrage

Gescannte Daten

这些

Als CSV-Dateien gespeicherte Daten

1 TB

236年Sekunden

1、15结核病

75美元

Im Apache Parquet-Format gespeicherte Daten

130 GB

78 Sekunden

2,51 GB

0,1美元

Ersparnisse

87%的女儿贝Verwendung冯拼花

34 Mal schneller

99%的女儿gescannte Daten

99年,7% Ersparnis

镶木地板和三角洲湖

Das Open-Source-Projekt三角洲湖baut auf民主党Parquet-Format和汪汪汪erweitert es的军队zusatzliche Funktionen是不是ACID-Transaktionen Cloud-Objektspeicher汪汪汪,Zeitreisen, Schemaentwicklung和einfache DML-Befehle(创建/更新/插入/删除/合并)。三角洲湖implementiert有这位wichtigen Funktionen军队死Verwendung进行geordneten Transaktionsprotokolls, das Data-Warehousing-Funktionalitat在Cloud-Objektspeicher ermoglicht。Weitere Informationen法登您Databricks-Blogpost化生深入三角洲湖:开箱事务日志

额外的资源

回到术语表