火花SQL

用語集のトップペ,ジへ
多くのデータサイエンティスト,アナリスト,一般的なBIユーザーは,データの解析に対話型のSQLクエリに活用しています。Spark SQLとは,構造化デ,タ処理のための火花モジュ,ルです。DataFramesと呼ばれるプログラミングの抽象化が可能で,分散型SQLクエリエンジンとしても機能します。これにより,既存のデプロHadoopHiveクエリを最大100倍の速さで実行できるようになりました。また,他のSparkエコシステムとの統合も可能です。(例:SQLクエリ処理と機械学習の統合)

Apache Spark SQLとは

SQLは火花,火花でのSQLのネイティブサポートを可能にし,抽样(火花の分散データセット)や外部ソースに保存されたデータのクエリ処理を効率化します。また,rddをリレ,ショナルテ,ブルと同様に処理することが可能です。このような優れた抽象化の統合により,開発者は複雑な分析で外部データをクエリするSQLコマンドを,容易に,単一のアプリケーション内に混在させることができます。具体的には,Spark SQLで開発者は次のことができるようになります。
  • ParquetファルやHiveテブルからのリレショナルデタのンポト
  • RDD SQL
  • Hiveテ、ブルやParquetファ、ルへの容易なRDDの書き出し
火花SQLには,コストベースのオプティマイザやカラムナストレージ,コード生成機能などがあり,クエリを高速化します。SQLはまた,火花,火花エンジンを使用して,数千のノードと数時間のクエリにスケーリングします。これにより,クエリ実行中の耐障害性は優れ,履歴デ,タに異なるエンジンを使用する必要はありません。

関連リソ,ス


用語集のトップペ,ジへ