PySpark

回到术语表

PySpark是什么?

Apache Spark是用Scala编程语言编写的。PySpark的发布是为了支持Apache Spark和Python的协作,它实际上是一个用于Spark的Python API。此外,PySpark可以帮助您在Apache Spark和Python编程语言中与弹性分布式数据集(rdd)进行交互。这是通过利用Py4j库实现的。PySpark标志Py4J是一个流行的库,它集成在PySpark中,允许python动态地与JVM对象交互。PySpark为编写高效程序提供了相当多的库。此外,还有各种外部库也是兼容的。以下是其中一些:

PySparkSQL

一个PySpark库,用于对大量结构化或半结构化数据应用类似sql的分析。我们还可以在PySparkSQL中使用SQL查询。它也可以连接到Apache蜂巢。HiveQL也可以应用。PySparkSQL是PySpark核心的包装器。PySparkSQL引入了DataFrame,这是一种结构化数据的表格表示,类似于关系数据库管理系统中的表。

MLlib

MLlib是PySpark的包装器,它是Spark的机器学习(ML)库。这个库使用数据并行技术来存储和处理数据。MLlib库提供的机器学习API非常易于使用。MLlib支持许多用于分类、回归、聚类、协同过滤、降维和底层优化原语的机器学习算法。

GraphFrames

GraphFrames是一个专门用于图形处理的库,它提供了一组api,用于使用PySpark核心和PySparkSQL高效地执行图形分析。它针对快速分布式计算进行了优化。使用PySpark的优点:•Python非常容易学习和实现。•提供简单而全面的API。•使用Python,代码的可读性、维护和熟悉度都要高得多。•它提供了多种数据可视化选项,这在使用Scala或Java时是很困难的。

额外的资源


回到术语表