弹性分布式数据集:
耐障害性分散デ,タセット(rdd)

用語集のトップペ,ジへ
耐障害性分散デ,タセット(rdd)とは耐障害性分散データセット(抽样)とは,火花のリリース以降,火花の主要なユーザー向けAPIとして利用されてきました。抽样は,クラスタ内の複数のノードに配置されたデータ要素の不変の集合体であり,変換その他の操作のための基礎的なAPIと並行して使用することが可能です。

rddの使用が適した5のケ

  1. デ,タセットに対し,低レベルの変換やアクション,管理を実行する場合
  2. 所有デ,タがメディアストリ,ムやテキストストリ,ムなどの非構造化デ,タである場合
  3. ドメ@ @ン固有言語ではなく,関数型プログラミングでデ@ @タを処理する場合
  4. 名前や列によるデータ属性の処理や,アクセスの際に,列指向フォーマットなどのスキーマの指定を厭わない場合
  5. 構造化・半構造化データに対するDataFramesや数据集の最適化機能や性能を必要としない場合

Apache Spark 2.0におけるRDDの役割

rddが不要になり,廃止されることはありません。数据集さらに言うと,DataFrameやと抽样の間では,シンプルなAPIメソッドを呼び出すことによりシームレスな移動が可能で,DataFramesや数据集は,抽样を基盤としています。

関連リソ,ス


用語集のトップペ,ジへ