火花SQL

多くのデータサイエンティスト,アナリスト,一般的なBIユーザーは,データの解析に対話型のSQLクエリに活用しています。Spark SQLとは，構造化デ，タ処理のための火花モジュ，ルです。DataFramesと呼ばれるプログラミングの抽象化が可能で,分散型SQLクエリエンジンとしても機能します。これにより，既存のデプロHadoopHiveクエリを最大100倍の速さで実行できるようになりました。また，他のSparkエコシステムとの統合も可能です。(例:SQLクエリ処理と機械学習の統合)

Apache Spark SQLとは

SQLは火花,火花でのSQLのネイティブサポートを可能にし,抽样(火花の分散データセット)や外部ソースに保存されたデータのクエリ処理を効率化します。また，rddをリレ，ショナルテ，ブルと同様に処理することが可能です。このような優れた抽象化の統合により,開発者は複雑な分析で外部データをクエリするSQLコマンドを,容易に,単一のアプリケーション内に混在させることができます。具体的には，Spark SQLで開発者は次のことができるようになります。

ParquetファルやHiveテブルからのリレショナルデタのンポト
RDD SQL
Hiveテ、ブルやParquetファ、ルへの容易なRDDの書き出し

火花SQLには,コストベースのオプティマイザやカラムナストレージ,コード生成機能などがあり,クエリを高速化します。SQLはまた,火花,火花エンジンを使用して,数千のノードと数時間のクエリにスケーリングします。これにより，クエリ実行中の耐障害性は優れ，履歴デ，タに異なるエンジンを使用する必要はありません。

Apache Spark SQLとは

関連リソ，ス