PySpark란무엇입니까?

Apache火花는Scala프로그래밍언어로작성되었습니다PySpark는Apache火花와Python의공동작업을지원하기위해릴리스되었으며,사실상용火花Python API의일종입니다。또한PySpark를사용하면Apache火花와Python프로그래밍언어로抽样(弹性分布式数据集)에접속하는데도움이됩니다。이를위해Py4j라이브러리를활용했습니다。PySpark로고Py4J는PySpark에내장된대중적인라이브러리이며JVM개체를사용해Python의동적인인터페이스를허용합니다。PySpark에는효율적프로그램을쓰는데좋은라이브러리가꽤많습니다。또한호환되는외부라이브러리도다양합니다。그중몇가지예를들면다음과같습니다。

PySparkSQL

엄청난대량의구조적또는반구조적데이터에SQL유사분석을적용하는데쓰이는PySpark라이브러리입니다。PySparkSQL은SQL쿼리에도사용할수있습니다。또한Apache蜂巢에연결할수도있습니다。HiveQL을적용해도됩니다。PySparkSQL은PySpark코어를통한래퍼(包装器)입니다。, PySparkSQL은DataFrame을도입했는데이것은관계형데이터베이스관리시스템의테이블과비슷한구조적데이터의테이블형식표현입니다。

MLlib

MLlib은PySpark를통한래퍼(包装)이며火花의머신러닝(ML)라이브러리이기도합니다。이라이브러리는데이터병렬처리기법을사용하여데이터를저장하고다룹니다。MLlib라이브러리가제공하는머신러닝API는사용이무척간편합니다。MLlib은수많은머신러닝알고리즘을지원하여분류,회귀,클러스터링,공동작업필터링,차원감소및기본최적화기본형식(原始)등에사용할수있습니다。

GraphFrame

GraphFrame은특수제작한그래프처리라이브러리로,일련의API를제공하여그래프분석을효율적으로수행합니다。이때PySpark와PySparkSQL을사용합니다。고속분산형컴퓨팅에최적화되어있습니다。PySpark를사용하여얻을수있는장점:•Python을매우손쉽게배우고구현할수있습니다。•단순하고종합적api를제공합니다。•Python과함께사용하면코드의가독성,유지와친숙도가훨씬나아집니다。•데이터시각화를위한다양한옵션을제공하는데,데이터시각화는Scala Java로나는어렵습니다。

额外的资源

回到术语表