拼花

数据库無料トラ电子词典アル

拼花とは

Apache拼花は効率的なデータの保存と検索のために設計された,オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符号化方式を提供し,パフォーマンスを向上させます。Apache拼花はバッチとインタラクティブの両方のワークロードで共通の交換形式となるように設計されており,Hadoopで利用可能な他の列指向ストレジファル形式であるRCFileやORCに似ています。

拼花の特徴

  • コスト不要のオプンソスのファル形式
  • あらゆる言語に対応
  • 列ベ,スのフォ,マット:ファ,ルは行ではなく列ごとに整理されるため,ストレ,ジ容量を節約し,分析クエリを高速化します。
  • 分析(olap)のユ,スケ,スに使用:通常は,従来のoltpデ,タベ,スと組み合わせて使用します。
  • 高効率なデ,タ圧縮と解凍
  • 複雑なデタタプ,高度にネストされたデタ構造をサポト

拼花を使用するメリット

  • ビッグデ,タの保存に最適:構造化デ,タ,テ,ブル,画像,動画,ドキュメントなど,あらゆる種類のデ,タを保存できます。
  • クラウドストレ,ジを節約:高効率なカラム単位の圧縮と,異なるデ,タの種類の列に対応する柔軟な符号化方式を採用しています。
  • デ,タのスル,プットとパフォ,マンスの向上:データスキッピングなどの技術を用いて,特定の列の値を取得するクエリによるデータの行全体の読み取りを不要にします。

Apache拼花はレコードのシュレッダーとアセンブリアルゴリズムによって実装され,データの保存に使用できる複雑なデータ構造に対応しています。また,複雑なデータを一括処理するために最適化されており,効率的なデータ圧縮とエンコーディングタイプを備えているのが特徴です。特に,大きなテ,ブルから特定の列を読み込むクエリに最適です。拼花は、必要な列のみを読み込むことで IO を大幅に削減できます。

列指向フォ,マットでデ,タを保存するメリット

  • CSVのような行指向ファイルと比較すると,Apache铺のような列指向ストレージは効率的:クエリを実行する際,列指向ストレージでは,非関連データを迅速にスキップすることができるため,行指向データベースと比較して,集計クエリの時間が短縮されます。また,このようなストレージ方式により,ハードウェアの節約およびデータアクセスのレイテンシを最小限に抑えることが可能です。
  • Apache拼花はゼロから構築:このため,高度にネストされたデータ構造への対応が可能です。拼花のデータファイルのレイアウトは、個々のファイルに対してギガバイト級のデータを大規模処理するクエリのために最適化されています。
  • 镶木地板のデータファイルのレイアウトは,個々のファイルに対してギガバイト級のデータを大規模処理するクエリのために最適化:拼花は,柔軟な圧縮オプションと効率的なエンコードスキームをサポートするように構築されています。それぞれの列のデータタイプは類似しているため,各列の圧縮は簡単で,クエリの実行はさらに高速化します。
  • 優れたサーバーレスな技術との親和性:Apache拼花は,AWS雅典娜や亚马逊光谱红移,谷歌BigQuery,谷歌Dataprocなどの対話型でサーバーレスな技術との親和性に優れています。

拼花とCSVの比較

CSVは、Excelや谷歌スプレッドシートなどの多くのツールで使用されており,他にも多数のツールで使用されているシンプルで一般的なフォーマットです。CSVはデタパプランのデフォルト設定ですが,次のようなデメリットがあります。 

  • 亚马逊雅典娜や频谱では,クエリごとにスキャンしたデータ量で課金される。
  • 谷歌やAmazonでは,GSまたはS3に保存したデ,タ量により課金される。
  • 谷歌数据procでは,実行時間に応じて課金される

镶木地板により,大規模なデータセットのストレージ必要量は少なくとも3分の1削減され,スキャンとデシリアライゼーションに必要な時間の大幅な改善で,全体のコストが削減されています。以下の表は,データをCSVから铺へ変換することで得られる速度と節約率を比較したものです。

デ,タセット

Amazon S3でのデタサズ

クエリの実行時間

スキャンデ,タ

コスト

CSVファaapl . exeルのデ

1 TB

236 秒

1.15结核病

5.75美元

Apache Parquet形式のデ,タ

130 GB

6.78秒

2.51 GB

0.01美元

削減率

拼花使用による削減率87%

34 倍速

スキャンデタ削減率99%

削減率99.7%

拼花と三角洲湖

オ,プンソ,スの三角洲湖プロジェクトは,拼花形式に基づいて構築され,さまざまな機能の追加により拡張されています。追加機能には,クラウドオブジェクトストレージの酸トランザクション,タイムトラベル,スキーマの拡張,シンプルなDMLコマンド(创建、更新、插入、删除、合并)などがあります。三角洲湖は,順序付けられたトランザクションログを使用してこれらの重要な機能の多くを実装しています。これにより,クラウドのオブジェクトストレ,ジ上におけるデ,タウェアハウス機能が可能になります。詳細は,こらの動画三角洲湖詳細編:トランザクションログをご覧ください。

额外的资源

回到术语表