火花API
用語集のトップペ,ジへレジリエントな分散デ,タセット(rdd)とは
レジリエントな分散データセットは(抽样),分散コンピューティングを用いたレコードコレクションです。フォ,ルトトレラントで不変な性質を有しています。RDDは,低レベルAPIとの並列操作が可能で,遅延機能によりSparkの操作を迅速化します。また,rddは2の操作をサポトしています。- トランスフォ,メ,ション-別のRDDを返す遅延操作。この抽样はアクションが実行されない限り計算されません。(map (), flatmap()、过滤器()など)
- アクション—計算をトリガ,し,値を返す操作。(count, top(), savetofile()など)
rddのデメリット
rddを使用する場合,それぞれのrddを最適化する必要があります。さらに,数据集やDataFrakeとは異なり,抽样は取り込まれたデータのスキーマを推論しないため,スキーマの指定が必要になります。数据帧とは
DataFrameとは,名前き列の下にある行の分散コレクションです。簡単に言うと,列見出しのあるエクセルシートのようなもので,リレーショナルデータベースのテーブルやRまたはPythonのDataFrameに相当します。DataFrameには,RDDとの共通点が3あります。- 不変性:DataFrameの作成は可能ですが,作成後の変更はできません。rddと同様,変換のみが可能です。
- 遅延評価:アクションがトリガ,されるまでタスクは実行されません。
- 分散型:DataFrameはRDDと同様,分散型です。
数据帧の作成方法
SparkにおけるDataFrameの作成方法は,いくかあります。- 異なるデータフォーマットの使用(JSON、CSV RDBMS、XML、镶花からデータを読み込むなど)
- 既存のrddからデ,タを読み込む
- プログラムでスキ,マを指定する
DataFramesのデメリット
DataFrame APIの最大のデメリットは,コンパ,ル時間を安全にサポ,トしていないことです。そのため,デ,タ構造が不明な場合に,ユ,ザ,は制限を受けることになります。数据集とは
数据集とは,リレーショナルスキーマにマップされた,型付きで,不変のオブジェクトのコレクションです。数据集は、JVMオブジェクトを使用して作成し,複雑な関数変換を用いて操作することが可能です。数据集は,2の方法で作成できます。- 動的に作成する
- SparkSessionを使用して,JSONファルから読み込む
数据集のデメリット
数据集の主なデメリットは,文字列への型キャストが必要なことです。関連リソ,ス
用語集のトップペ,ジへ