火花API

用語集のトップペ,ジへ
Sparkには,DataFrame, Dataset, RDDの3のAPIがあります。

レジリエントな分散デ,タセット(rdd)とは

レジリエントな分散データセットは(抽样),分散コンピューティングを用いたレコードコレクションです。フォ,ルトトレラントで不変な性質を有しています。RDDは,低レベルAPIとの並列操作が可能で,遅延機能によりSparkの操作を迅速化します。また,rddは2の操作をサポトしています。
  • トランスフォ,メ,ション-別のRDDを返す遅延操作。この抽样はアクションが実行されない限り計算されません。(map (), flatmap()、过滤器()など)Spark API: RDD変換
  • アクション—計算をトリガ,し,値を返す操作。(count, top(), savetofile()など)Spark API: RDDアクション

rddのデメリット

rddを使用する場合,それぞれのrddを最適化する必要があります。さらに,数据集やDataFrakeとは異なり,抽样は取り込まれたデータのスキーマを推論しないため,スキーマの指定が必要になります。

数据帧とは

DataFrameとは,名前き列の下にある行の分散コレクションです。簡単に言うと,列見出しのあるエクセルシートのようなもので,リレーショナルデータベースのテーブルやRまたはPythonのDataFrameに相当します。DataFrameには,RDDとの共通点が3あります。
  • 不変性:DataFrameの作成は可能ですが,作成後の変更はできません。rddと同様,変換のみが可能です。
  • 遅延評価:アクションがトリガ,されるまでタスクは実行されません。
  • 分散型:DataFrameはRDDと同様,分散型です。

数据帧の作成方法

SparkにおけるDataFrameの作成方法は,いくかあります。
  • 異なるデータフォーマットの使用(JSON、CSV RDBMS、XML、镶花からデータを読み込むなど)
  • 既存のrddからデ,タを読み込む
  • プログラムでスキ,マを指定する

DataFramesのデメリット

DataFrame APIの最大のデメリットは,コンパ,ル時間を安全にサポ,トしていないことです。そのため,デ,タ構造が不明な場合に,ユ,ザ,は制限を受けることになります。

数据集とは

数据集とは,リレーショナルスキーマにマップされた,型付きで,不変のオブジェクトのコレクションです。数据集は、JVMオブジェクトを使用して作成し,複雑な関数変換を用いて操作することが可能です。数据集は,2の方法で作成できます。
  • 動的に作成する
  • SparkSessionを使用して,JSONファルから読み込む

数据集のデメリット

数据集の主なデメリットは,文字列への型キャストが必要なことです。

関連リソ,ス


用語集のトップペ,ジへ