DataFrame¶

`DataFrame.agg`(* exprs)	总对整个`DataFrame`没有组(简称`.agg df.groupBy () ()`)。
`DataFrame.alias`(别名)	返回一个新的`DataFrame`设置一个别名。
`DataFrame.approxQuantile`(坳、概率、…)	计算的近似数值列的分位数`DataFrame`。
`DataFrame.cache`()	持续的`DataFrame`使用默认存储水平(MEMORY_AND_DISK)。
`DataFrame.checkpoint`((渴望))	返回一个检查点的版本`DataFrame`。
`DataFrame.coalesce`(numPartitions)	返回一个新的`DataFrame`已经完全numPartitions分区。
`DataFrame.colRegex`(colName)	基于列的选择列名称指定为一个正则表达式并返回它`列`。
`DataFrame.collect`()	返回所有记录的列表`行`。
`DataFrame.columns`	返回所有列名列表。
`DataFrame.corr`(col1 col2[方法])	计算两列的相关性`DataFrame`作为一个双精度值。
`DataFrame.count`()	返回的行数`DataFrame`。
`DataFrame.cov`(col1 col2)	计算样本协方差为给定的列,指定他们的名字,作为一个双重价值。
`DataFrame.createGlobalTempView`(名字)	创建一个全局临时视图`DataFrame`。
`DataFrame.createOrReplaceGlobalTempView`(名字)	创建或替换一个全局临时视图使用给定的名称。
`DataFrame.createOrReplaceTempView`(名字)	创建或替换本地临时视图`DataFrame`。
`DataFrame.createTempView`(名字)	创建一个本地临时视图`DataFrame`。
`DataFrame.crossJoin`(其他)	返回笛卡儿积与另一个`DataFrame`。
`DataFrame.crosstab`(col1 col2)	计算两两频率给定的表列。
`DataFrame.cube`(*峡路)	为当前创建多维数据集`DataFrame`使用指定的列,所以我们可以运行聚合。
`DataFrame.describe`(*峡路)	计算基本统计数字和字符串列。
`DataFrame.distinct`()	返回一个新的`DataFrame`包含不同的行`DataFrame`。
`DataFrame.drop`(*峡路)	返回一个新的`DataFrame`这滴指定的列。
`DataFrame.dropDuplicates`((子集))	返回一个新的`DataFrame`删除重复的行,选择只考虑某些列。
`DataFrame.drop_duplicates`((子集))	`drop_duplicates ()`是一个别名`dropDuplicates ()`。
`DataFrame.dropna`([如何颠簸,子集])	返回一个新的`DataFrame`省略具有零值的行。
`DataFrame.dtypes`	返回所有列名和数据类型作为一个列表。
`DataFrame.exceptAll`(其他)	返回一个新的`DataFrame`包含在这行`DataFrame`但不是在另一个`DataFrame`同时保留副本。
`DataFrame.explain`([扩展、模式])	打印到控制台(逻辑和物理)计划用于调试目的。
`DataFrame.fillna`(价值[,]子集)	替换空值,别名`na.fill ()`。
`DataFrame.filter`(条件)	过滤器使用给定的条件行。
`DataFrame.first`()	返回第一行作为一个`行`。
`DataFrame.foreach`(f)	应用`f`函数对所有`行`这`DataFrame`。
`DataFrame.foreachPartition`(f)	应用`f`函数的每个分区`DataFrame`。
`DataFrame.freqItems`(关口[支持])	发现频繁项目列,可能与假阳性。
`DataFrame.groupBy`(*峡路)	组的`DataFrame`使用指定的列,所以我们可以运行聚合。
`DataFrame.head`([n])	返回第一个`n`行。
`DataFrame.hint`(名称、*参数)	指定当前的一些提示`DataFrame`。
`DataFrame.inputFiles`()	返回一个最优的快照文件组成`DataFrame`。
`DataFrame.intersect`(其他)	返回一个新的`DataFrame`只有在这种包含行`DataFrame`和另一个`DataFrame`。
`DataFrame.intersectAll`(其他)	返回一个新的`DataFrame`包含在这行`DataFrame`和另一个`DataFrame`同时保留副本。
`DataFrame.isEmpty`()	返回`真正的`如果这`DataFrame`是空的。
`DataFrame.isLocal`()	返回`真正的`如果`收集()`和`带()`方法可以在本地运行(没有任何火花执行人)。
`DataFrame.isStreaming`	返回`真正的`如果这`DataFrame`包含一个或多个源不断地返回数据,因为它的到来。
`DataFrame.join`(其他(,,))	连接与另一个`DataFrame`,使用给定的连接表达式。
`DataFrame.limit`(num)	限制结果数到指定的号码。
`DataFrame.localCheckpoint`((渴望))	返回一个局部检查点的版本`DataFrame`。
`DataFrame.mapInPandas`(函数模式)	地图批次在当前的迭代器`DataFrame`使用Python的本机函数和输出一个熊猫DataFrame,并返回结果`DataFrame`。
`DataFrame.mapInArrow`(函数模式)	地图批次在当前的迭代器`DataFrame`使用Python的本机函数和输出PyArrow的RecordBatch,并返回结果`DataFrame`。
`DataFrame.na`	返回一个`DataFrameNaFunctions`处理缺失值。
`DataFrame.observe`(观察、* exprs)	定义(命名)DataFrame指标观察。
`DataFrame.orderBy`(关口, * kwargs)	返回一个新的`DataFrame`按指定的列(s)。
`DataFrame.persist`([storageLevel])	设置存储水平持续的内容`DataFrame`在操作后第一次计算。
`DataFrame.printSchema`()	在树格式打印模式。
`DataFrame.randomSplit`(重量、种子)	随机将这`DataFrame`与所提供的重量。
`DataFrame.rdd`	作为一个返回内容`pyspark.RDD`的`行`。
`DataFrame.registerTempTable`(名字)	注册了这家`DataFrame`作为一个临时表使用给定的名称。
`DataFrame.repartition`(*关口numPartitions)	返回一个新的`DataFrame`分区的分区表达式。
`DataFrame.repartitionByRange`(numPartitions…)	返回一个新的`DataFrame`分区的分区表达式。
`DataFrame.replace`(to_replace[],价值,子集)	返回一个新的`DataFrame`值替换为另一个值。
`DataFrame.rollup`(*峡路)	为当前创建一个多维的汇总`DataFrame`使用指定的列,所以我们可以运行聚合。
`DataFrame.sameSemantics`(其他)	返回真正的当内部逻辑查询计划`DataFrame`年代是相等的,因此返回相同的结果。
`DataFrame.sample`([withReplacement,…)	返回一个样本子集`DataFrame`。
`DataFrame.sampleBy`(坳,分数(、种子))	返回一个分层抽样不重复每层基于给出的分数。
`DataFrame.schema`	返回的模式`DataFrame`作为一个`pyspark.sql.types.StructType`。
`DataFrame.select`(*峡路)	项目一组表达式并返回一个新的`DataFrame`。
`DataFrame.selectExpr`(* expr)	项目一组SQL表达式,并返回一个新的`DataFrame`。
`DataFrame.semanticHash`()	返回一个散列码逻辑查询计划的反对`DataFrame`。
`DataFrame.show`([n,截断,垂直])	印第`n`行到控制台。
`DataFrame.sort`(关口, * kwargs)	返回一个新的`DataFrame`按指定的列(s)。
`DataFrame.sortWithinPartitions`(关口, * kwargs)	返回一个新的`DataFrame`与每个分区按指定的列(s)。
`DataFrame.sparkSession`	返回会话创建这个火花`DataFrame`。
`DataFrame.stat`	返回一个`DataFrameStatFunctions`统计功能。
`DataFrame.storageLevel`	得到了`DataFrame`目前的存储水平。
`DataFrame.subtract`(其他)	返回一个新的`DataFrame`包含在这行`DataFrame`但不是在另一个`DataFrame`。
`DataFrame.summary`(*统计)	计算指定的统计数字和字符串列。
`DataFrame.tail`(num)	返回最后一个`全国矿工工会`行作为一个`列表`的`行`。
`DataFrame.take`(num)	返回第一个`全国矿工工会`行作为一个`列表`的`行`。
`DataFrame.toDF`(*峡路)	返回一个新的`DataFrame`与新指定的列名
`DataFrame.toJSON`([use_unicode])	转换`DataFrame`成一个`抽样`的字符串。
`DataFrame.toLocalIterator`([prefetchPartitions])	返回一个迭代器,包含所有的行`DataFrame`。
`DataFrame.toPandas`()	返回的内容`DataFrame`像熊猫`pandas.DataFrame`。
`DataFrame.to_pandas_on_spark`([index_col])
`DataFrame.transform`(* args func * * kwargs)	返回一个新的`DataFrame`。
`DataFrame.union`(其他)	返回一个新的`DataFrame`在这个和另一个包含的行`DataFrame`。
`DataFrame.unionAll`(其他)	返回一个新的`DataFrame`在这个和另一个包含的行`DataFrame`。
`DataFrame.unionByName`(其他[…])	返回一个新的`DataFrame`在这个和另一个包含的行`DataFrame`。
`DataFrame.unpersist`((阻塞))	标志着`DataFrame`非持久性,并删除所有从内存和磁盘块。
`DataFrame.where`(条件)	`在()`是一个别名`filter ()`。
`DataFrame.withColumn`(colName坳)	返回一个新的`DataFrame`通过添加一个列或替换现有的列有相同的名字。
`DataFrame.withColumns`(* colsMap)	返回一个新的`DataFrame`通过添加多个列或替换现有的列有相同的名字。
`DataFrame.withColumnRenamed`(现有的)	返回一个新的`DataFrame`通过重命名一个已有的列。
`DataFrame.withMetadata`(columnName元数据)	返回一个新的`DataFrame`通过更新现有列元数据。
`DataFrame.withWatermark`(eventTime…)	定义了一个事件时间水印`DataFrame`。
`DataFrame.write`	界面保存的内容的非`DataFrame`到外部存储。
`DataFrame.writeStream`	界面保存的内容流`DataFrame`到外部存储。
`DataFrame.writeTo`(表)	创建一个为v2消息编写配置构建器。
`DataFrame.pandas_api`([index_col])	现有DataFrame转换成pandas-on-Spark DataFrame。
`DataFrameNaFunctions.drop`([如何颠簸,子集])	返回一个新的`DataFrame`省略具有零值的行。
`DataFrameNaFunctions.fill`(价值[,]子集)	替换空值,别名`na.fill ()`。
`DataFrameNaFunctions.replace`(to_replace […])	返回一个新的`DataFrame`值替换为另一个值。
`DataFrameStatFunctions.approxQuantile`(col…)	计算的近似数值列的分位数`DataFrame`。
`DataFrameStatFunctions.corr`(col1 col2[方法])	计算两列的相关性`DataFrame`作为一个双精度值。
`DataFrameStatFunctions.cov`(col1 col2)	计算样本协方差为给定的列,指定他们的名字,作为一个双重价值。
`DataFrameStatFunctions.crosstab`(col1 col2)	计算两两频率给定的表列。
`DataFrameStatFunctions.freqItems`(关口[支持])	发现频繁项目列,可能与假阳性。
`DataFrameStatFunctions.sampleBy`(坳,分数)	返回一个分层抽样不重复每层基于给出的分数。

以前的

pyspark.sql.DataFrameWriter.text

下一个

pyspark.sql.DataFrame.agg