Apache火花

数据库無料トラ电子词典アル

使ってみる

Apache Sparkとは

Apache火花はビッグデータのワークロードに使用するオープンソースの分析エンジンです。リアルタム分析とデタ処理のワクロドに加えて，両方のバッチ処理が可能です。Apache火花は 2009 年にカリフォルニア大学バークレー校の研究プロジェクトとして開発されました。それまで研究者は、Hadoopシステムでのジョブ処理を高速化する方法を模索していました。Apache SparkはHadoopMapReduceをベースとして,MapReduceモデルを拡張し,対話型クエリやストリーム処理など,より多くのタイプの計算に効率的に使用できるようになっています。プログラミング言語のJava, Scala, Python, Rでバインディングをネイティブ機能として実装しています。さらに,機械学習(MLlib)ストリーム処理(火花流),グラフ処理(GraphX)用のアプリケーション構築を支援するライブラリもいくつか備えています。Apache火花は火花核心と一連のライブラリから構成され,火花核心はApache火花の中核をなし,タスクの分散伝送,スケジューリング,I / O機能を提供する役割を果たしています。また,火花核心のエンジンは基本的なデータタイプである弹性分布式数据集(抽样)の概念を使用し,その抽样は計算複雑性の大部分をユーザーから見えないように設計されています。Sparkはデ，タ処理の方法に優れています。データとパーティションはサーバークラスタ全体で集約され,次に計算が行われて別のデータストアへ移動するか,分析モデルを使用して実行します。ファルを保存取得するために必要なファルや計算リソスの保存先の指定は不要です。レジリエントな分散デ，タセット

Apache Sparkを使用するメリット

スピド

Sparkでは，複数の並列処理中にメモリにデ，タをキャッシュするため，動作が非常に高速です。Sparkの主な特徴は，処理速度を高めるescンメモリエンジンです。インメモリ処理での大規模なデータ処理に関しては,MapReduceと比較して最大100倍,ディスクでは10倍高速になります。Sparkは，ディスク操作への読み取り/書き込み回数を減らすことによってこれを可能にします。

リアルタ▪▪ムのストリ▪▪ム処理

Apacheは火花,他のフレームワークの統合に加えて,リアルタイムのストリーミング処理を実行できます,火花はミニバッチ単位でデータを取り込み,そのミニバッチのデータに対して抽样変換を行います。

複数のワ，クロ，ドをサポ，ト

Apache火花は,対話型クエリ,リアルタイム分析,機械学習,グラフ処理など複数のワークロードを実行できます。複数のワ，クロ，ドは，単一のアプリケ，ションにシ，ムレスに統合可能です。

操作性の向上

複数のプログラミング言語をサポ，トする機能により，操作が動的になります。Java, Scala, Python, Rでアプリケーションを迅速に記述することができ,アプリケーション構築のための多様な言語を提供します。

高度なアナリティクス

SparkはSQLクエリ，機械学習，ストリ，ム処理，グラフ処理をサポ，トしています。

额外的资源

回到术语表