PySpark

数据库無料トラ电子词典アル

PySparkとは

Apache Sparkは,Scalaプログラミング言語。PySparkとは,Sparkを実行するためのPython APIです。Apache火花とPythonのコラボレーションをサポートするためにリリースされました。PySparkは、Apache Spark とプログラミング言語 Python での Resilient Distributed Dataset(RDD)とのインターフェイスもサポートしており、これは Py4J ライブラリを活用することで実現しています。Py4J は、PySpark に組み込まれた定評のあるライブラリで、Python の JVM 上のオブジェクトとの動的なインターフェースを可能にします。PySpark には、効率的にプログラミングするためのライブラリが数多く実装されており、互換性のある外部ライブラリもあります。PySparkロゴ次にあげるのは,そのいくかの例です。

PySparkSQL

PySparkSQLは,膨大な量の構造化・半構造化データにSQLライクな分析を行うPySparkライブラリです。PySparkSQLを使用してSQLクエリを実行することができ,Apache蜂巢との連携や,HiveQLの適用も可能です。さらに,PySparkSQLは,Pyspark Coreのラッパ,です。PySparkSQLでは、リレーショナルデータベース管理システムのテーブルと類似の表形式で構造化データを表現する DataFrame を導入しています。

MLlib

MLlibは,PySparkのラッパ,で,Sparkの機械学習(ML)ラ。このラ@ @ブラリは,デ@ @タの蓄積および集計に並列処理を行います。MLlibライブラリが提供する機械学習APIは、簡単に利用することができます。MLlib は、分類、回帰、クラスタリング、協調フィルタリング、次元削減、基礎となる最適化プリミティブのための多くの機械学習アルゴリズムをサポートしています。

GraphFrames

GraphFramesは,グラフデータ処理ライブラリで,PySpark核心とPySparkSQLを使用して,グラフ分析を効率的に行うためのAPIセットを提供します。また,高速な分散コンピュ,ティングに最適化されています。PySparkを使用するメリット
·Pythonの学習や実装は極めて容易
·シンプルで包括的なAPIを提供
·Pythonの使用で,コ,ドの可読性,保守性,使いやすさが向上
·ScalaやJavaでは困難なデタ可視化に多くの選択肢が充実

额外的资源

回到术语表