Apache火花

Apache Sparkとは,ビッグデ,タと機械学習のための非常に高速な分散処理フレ,ムワ,クです。これはもともと,2009年にカリフォルニア大学バ,クレ,校で開発されました。

デ,タ処理で最大のオ,プンソ,スプロジェクト

ビッグデ,タ分析に最適なオ,プンソ,スの分散処理システムであるApache火花はそのリリ,ス以来,さまざまな業種の企業に採用され,急速な拡大を遂げています。Netflix、雅虎、eBayなどのインターネット大手も,火花を大規模にデプロイし,8000を超えるノードのクラスターで,複数のペタバイトデータをまとめて処理しています。Apache火花は現在250を超える組織から1000名以上が参加する,ビッグデータの最大のオープンソースコミュニティへと急速に成長しています。
Apache sparkコミュニティのメジ

砖は,カリフォルニア大学バークレー校で火花の研究プロジェクトを開始したチームによって2013年に設立されました。

Apache火花は100%オープンソースで,ベンダーに依存しないApache软件基金会によってホストされています。数据库では,このオ,プンな開発モデルを維持することに全力で取り組んでいます。砖は Spark コミュニティと協力し、開発とコミュニティの活動の両方を通じて Apache Spark プロジェクトに大きく貢献しています。


Apache Sparkエコシステム

Spark SQL + DataFrame

構造化されたデ,タ:Spark SQL

多くの数据科学家,アナリスト,一般的なビジネスインテリジェンスユーザーは,データの解析に対話型のSQLクエリに活用しています。Spark SQLは,構造化デ,タ処理のためのSparkモジュ,ルです。DataFramesと呼ばれるプログラミングの抽象化が可能で,分散型SQLクエリエンジンとしても機能します。これにより,既存のデプロイやデータで未修正のHadoop蜂巢クエリを最大100倍の速さで実行できるようになりました。また,他のSparkエコシステムと統合することも可能です。(例:SQLクエリ処理と機械学習の統合)

ストリ,ミング

ストリ,ミング分析:Sparkストリ,ミング

多くのアプリケーションは,バッチデータだけでなく,新しいデータストリームをリアルタイムで処理し,分析する機能も必要とします。火花上で実行する流は火花,火花の使いやすさと耐障害性という特性を継承しつつ,ストリーミングデータと履歴データの両方にて,対話型の優れた分析アプリケーションを可能にします。またHDFS,水槽,卡夫卡,Twitterなど,一般的に使われているさまざまなデータソースと簡単に統合することも可能です。

MLlib機械学習

機械学習:MLlib

機械学習は,ビッグデータのマイニングにおいて実用的な洞察を得るための重要な機能として,急速に台頭してきました。火花上に構築されたMLlibは,高品質のアルゴリズム(精度を上げるための複数の反復など)と,超高速処理(MapReduceと比べて最大100倍の速度)の両方を提供するスケーラブルな機械学習ライブラリです。このライブラリは,火花アプリケーションの一部としてJava, Scala,およびPythonで使用可能であり,完全なワークフローに含めることができます。

GraphXグラフ計算

グラフ計算:GraphX

GraphXはSpark上に構築されたグラフ計算エンジンです。これによりユーザーは大きな規模にて,インタラクティブにグラフ構造データを構築,変更,および判断することができます。GraphXは,共通アルゴリズムのラaaplブラリを備えています。

Spark Core API

一般的な実行:Spark Core

Spark Coreは,Sparkプラットフォ,ムの基盤となる一般的な実行エンジンです。その他の機能は全て,その上に構築されています。高速処理を実現するインメモリコンピューティング機能,さまざまなアプリケーションをサポートする一般化された実行モデル,および開発を容易にするJava, Scala,およびPython APIを提供します。

R
SQL
Python
Scala
Java

Apache Sparkとは何か- Hadoopに対するApache Sparkの優位性

スピド

ボトムアップでパフォーマンスを向上させるように設計された引发は,メモリコンピューティングやその他の最適化を活用することで,Hadoopの100倍の速度で大規模デ,タを処理できます。また,Sparkはデ,タがディスクに格納されている場合にも高速処理が可能です。現在、大規模なディスク上のソ、トに、いて、世界記録を保持しています。

使いやすさ

Sparkは大規模なデタセットを操作するための使いやすいAPIを備えています。これには,データを変換するための100以上の演算子と,半構造化データを操作するための使い慣れたデータフレームAPIが含まれています。

統合エンジン

火花は、SQLクエリ,ストリーミングデータ,機械学習,グラフ処理のサポートといった,高レベルのライブラリと一緒にパッケージ化されています。これらの標準ラ@ @ブラリは開発者の生産性を向上させます。また,シ,ムレスに組み合わせることで複雑なワ,クフロ,を作成することができます。

DatabricksクラウドでApache Sparkを無料でお試しください。

砖の統合分析プラットフォームは,分散処理システムの火花,対話型ノートブック,統合されたワークフロー,およびエンタープライズセキュリティについて,5倍のパフォーマンスを提供します。これらは全て,フルマネ,ジド型のクラウドプラットフォ,ムで実行されます。

数据库無料トラ电子词典アル

オ,プンソ,スのApache Sparkプロジェクトはこらからダウンロド可能です。