转换:
トランスフォ,メ,ション

用語集のトップペ,ジへ

トランスフォ,メ,ションとは:

Sparkでは,コアとなるデ,タ構造は不変であり,一度作成したデータ構造は変更できないため,実際に使用する際に,最初はこの概念に疑問を抱くかもしれません。火花でDataFrameを変更するためには,火花に対し,既存のDataFrameをどのように修正したいかを指示する必要があります。この指示をトランスフォ,メ,ションと呼びます。トランスフォーメーションとは,火花を使用してビジネスロジックをどのように記述するかの中心となるものです。トランスフォ,メ,ションには,限定依存と広域依存の2種類があります。

限定依存

限定依存からなるトランスフォーメーション(または限定トランスフォーメーション)では,各入力パーティションはそれぞれ1つの出力パーティションに寄与します。限定トランスフォ,メ,ション

広域依存

広域依存の関係にあるトランスフォーメーション(または広域トランスフォーメーション)では,入力パーティションは複数の出力パーティションに寄与します。これは”シャッフルと呼ばれ,Sparkはクラスタ全体でパ,ティションを交換します。限定トランスフォ,メ,ションでは、Sparkは限定依存に対してパイプライン化と呼ばれる操作を自動的に実行します。これは、DataFrameに複数のフィルタを指定する場合、その全てのファイルがインメモリで実行されることを意味します。しかし、これはシャッフルには該当しません。シャッフルを実行すると、Sparkは結果をディスクに書き込みます。シャッフルの最適化は重要なテーマであり、ウェブ上には情報が溢れています。しかし、現時点で覚えておくべきことは、トランスフォーメーションには2種類あるということです。広域トランスフォ,メ,ション

関連リソ,ス


用語集のトップペ,ジへ