DataFrame

DataFrame.agg(* exprs)

总对整个DataFrame没有组(简称.agg df.groupBy () ())。

DataFrame.alias(别名)

返回一个新的DataFrame设置一个别名。

DataFrame.approxQuantile(坳、概率、…)

计算的近似数值列的分位数DataFrame

DataFrame.cache()

持续的DataFrame使用默认存储水平(MEMORY_AND_DISK)。

DataFrame.checkpoint((渴望))

返回一个检查点的版本DataFrame

DataFrame.coalesce(numPartitions)

返回一个新的DataFrame已经完全numPartitions分区。

DataFrame.colRegex(colName)

基于列的选择列名称指定为一个正则表达式并返回它

DataFrame.collect()

返回所有记录的列表

DataFrame.columns

返回所有列名列表。

DataFrame.corr(col1 col2[方法])

计算两列的相关性DataFrame作为一个双精度值。

DataFrame.count()

返回的行数DataFrame

DataFrame.cov(col1 col2)

计算样本协方差为给定的列,指定他们的名字,作为一个双重价值。

DataFrame.createGlobalTempView(名字)

创建一个全局临时视图DataFrame

DataFrame.createOrReplaceGlobalTempView(名字)

创建或替换一个全局临时视图使用给定的名称。

DataFrame.createOrReplaceTempView(名字)

创建或替换本地临时视图DataFrame

DataFrame.createTempView(名字)

创建一个本地临时视图DataFrame

DataFrame.crossJoin(其他)

返回笛卡儿积与另一个DataFrame

DataFrame.crosstab(col1 col2)

计算两两频率给定的表列。

DataFrame.cube(*峡路)

为当前创建多维数据集DataFrame使用指定的列,所以我们可以运行聚合。

DataFrame.describe(*峡路)

计算基本统计数字和字符串列。

DataFrame.distinct()

返回一个新的DataFrame包含不同的行DataFrame

DataFrame.drop(*峡路)

返回一个新的DataFrame这滴指定的列。

DataFrame.dropDuplicates((子集))

返回一个新的DataFrame删除重复的行,选择只考虑某些列。

DataFrame.drop_duplicates((子集))

drop_duplicates ()是一个别名dropDuplicates ()

DataFrame.dropna([如何颠簸,子集])

返回一个新的DataFrame省略具有零值的行。

DataFrame.dtypes

返回所有列名和数据类型作为一个列表。

DataFrame.exceptAll(其他)

返回一个新的DataFrame包含在这行DataFrame但不是在另一个DataFrame同时保留副本。

DataFrame.explain([扩展、模式])

打印到控制台(逻辑和物理)计划用于调试目的。

DataFrame.fillna(价值[,]子集)

替换空值,别名na.fill ()

DataFrame.filter(条件)

过滤器使用给定的条件行。

DataFrame.first()

返回第一行作为一个

DataFrame.foreach(f)

应用f函数对所有DataFrame

DataFrame.foreachPartition(f)

应用f函数的每个分区DataFrame

DataFrame.freqItems(关口[支持])

发现频繁项目列,可能与假阳性。

DataFrame.groupBy(*峡路)

组的DataFrame使用指定的列,所以我们可以运行聚合。

DataFrame.head([n])

返回第一个n行。

DataFrame.hint(名称、*参数)

指定当前的一些提示DataFrame

DataFrame.inputFiles()

返回一个最优的快照文件组成DataFrame

DataFrame.intersect(其他)

返回一个新的DataFrame只有在这种包含行DataFrame和另一个DataFrame

DataFrame.intersectAll(其他)

返回一个新的DataFrame包含在这行DataFrame和另一个DataFrame同时保留副本。

DataFrame.isEmpty()

返回真正的如果这DataFrame是空的。

DataFrame.isLocal()

返回真正的如果收集()带()方法可以在本地运行(没有任何火花执行人)。

DataFrame.isStreaming

返回真正的如果这DataFrame包含一个或多个源不断地返回数据,因为它的到来。

DataFrame.join(其他(,,))

连接与另一个DataFrame,使用给定的连接表达式。

DataFrame.limit(num)

限制结果数到指定的号码。

DataFrame.localCheckpoint((渴望))

返回一个局部检查点的版本DataFrame

DataFrame.mapInPandas(函数模式)

地图批次在当前的迭代器DataFrame使用Python的本机函数和输出一个熊猫DataFrame,并返回结果DataFrame

DataFrame.mapInArrow(函数模式)

地图批次在当前的迭代器DataFrame使用Python的本机函数和输出PyArrow的RecordBatch,并返回结果DataFrame

DataFrame.na

返回一个DataFrameNaFunctions处理缺失值。

DataFrame.observe(观察、* exprs)

定义(命名)DataFrame指标观察。

DataFrame.orderBy(*关口,* * kwargs)

返回一个新的DataFrame按指定的列(s)。

DataFrame.persist([storageLevel])

设置存储水平持续的内容DataFrame在操作后第一次计算。

DataFrame.printSchema()

在树格式打印模式。

DataFrame.randomSplit(重量、种子)

随机将这DataFrame与所提供的重量。

DataFrame.rdd

作为一个返回内容pyspark.RDD

DataFrame.registerTempTable(名字)

注册了这家DataFrame作为一个临时表使用给定的名称。

DataFrame.repartition(*关口numPartitions)

返回一个新的DataFrame分区的分区表达式。

DataFrame.repartitionByRange(numPartitions…)

返回一个新的DataFrame分区的分区表达式。

DataFrame.replace(to_replace[],价值,子集)

返回一个新的DataFrame值替换为另一个值。

DataFrame.rollup(*峡路)

为当前创建一个多维的汇总DataFrame使用指定的列,所以我们可以运行聚合。

DataFrame.sameSemantics(其他)

返回真正的当内部逻辑查询计划DataFrame年代是相等的,因此返回相同的结果。

DataFrame.sample([withReplacement,…)

返回一个样本子集DataFrame

DataFrame.sampleBy(坳,分数(、种子))

返回一个分层抽样不重复每层基于给出的分数。

DataFrame.schema

返回的模式DataFrame作为一个pyspark.sql.types.StructType

DataFrame.select(*峡路)

项目一组表达式并返回一个新的DataFrame

DataFrame.selectExpr(* expr)

项目一组SQL表达式,并返回一个新的DataFrame

DataFrame.semanticHash()

返回一个散列码逻辑查询计划的反对DataFrame

DataFrame.show([n,截断,垂直])

印第n行到控制台。

DataFrame.sort(*关口,* * kwargs)

返回一个新的DataFrame按指定的列(s)。

DataFrame.sortWithinPartitions(*关口,* * kwargs)

返回一个新的DataFrame与每个分区按指定的列(s)。

DataFrame.sparkSession

返回会话创建这个火花DataFrame

DataFrame.stat

返回一个DataFrameStatFunctions统计功能。

DataFrame.storageLevel

得到了DataFrame目前的存储水平。

DataFrame.subtract(其他)

返回一个新的DataFrame包含在这行DataFrame但不是在另一个DataFrame

DataFrame.summary(*统计)

计算指定的统计数字和字符串列。

DataFrame.tail(num)

返回最后一个全国矿工工会行作为一个列表

DataFrame.take(num)

返回第一个全国矿工工会行作为一个列表

DataFrame.toDF(*峡路)

返回一个新的DataFrame与新指定的列名

DataFrame.toJSON([use_unicode])

转换DataFrame成一个抽样的字符串。

DataFrame.toLocalIterator([prefetchPartitions])

返回一个迭代器,包含所有的行DataFrame

DataFrame.toPandas()

返回的内容DataFrame像熊猫pandas.DataFrame

DataFrame.to_pandas_on_spark([index_col])

DataFrame.transform(* args func * * kwargs)

返回一个新的DataFrame

DataFrame.union(其他)

返回一个新的DataFrame在这个和另一个包含的行DataFrame

DataFrame.unionAll(其他)

返回一个新的DataFrame在这个和另一个包含的行DataFrame

DataFrame.unionByName(其他[…])

返回一个新的DataFrame在这个和另一个包含的行DataFrame

DataFrame.unpersist((阻塞))

标志着DataFrame非持久性,并删除所有从内存和磁盘块。

DataFrame.where(条件)

在()是一个别名filter ()

DataFrame.withColumn(colName坳)

返回一个新的DataFrame通过添加一个列或替换现有的列有相同的名字。

DataFrame.withColumns(* colsMap)

返回一个新的DataFrame通过添加多个列或替换现有的列有相同的名字。

DataFrame.withColumnRenamed(现有的)

返回一个新的DataFrame通过重命名一个已有的列。

DataFrame.withMetadata(columnName元数据)

返回一个新的DataFrame通过更新现有列元数据。

DataFrame.withWatermark(eventTime…)

定义了一个事件时间水印DataFrame

DataFrame.write

界面保存的内容的非DataFrame到外部存储。

DataFrame.writeStream

界面保存的内容流DataFrame到外部存储。

DataFrame.writeTo(表)

创建一个为v2消息编写配置构建器。

DataFrame.pandas_api([index_col])

现有DataFrame转换成pandas-on-Spark DataFrame。

DataFrameNaFunctions.drop([如何颠簸,子集])

返回一个新的DataFrame省略具有零值的行。

DataFrameNaFunctions.fill(价值[,]子集)

替换空值,别名na.fill ()

DataFrameNaFunctions.replace(to_replace […])

返回一个新的DataFrame值替换为另一个值。

DataFrameStatFunctions.approxQuantile(col…)

计算的近似数值列的分位数DataFrame

DataFrameStatFunctions.corr(col1 col2[方法])

计算两列的相关性DataFrame作为一个双精度值。

DataFrameStatFunctions.cov(col1 col2)

计算样本协方差为给定的列,指定他们的名字,作为一个双重价值。

DataFrameStatFunctions.crosstab(col1 col2)

计算两两频率给定的表列。

DataFrameStatFunctions.freqItems(关口[支持])

发现频繁项目列,可能与假阳性。

DataFrameStatFunctions.sampleBy(坳,分数)

返回一个分层抽样不重复每层基于给出的分数。