DataFrame.agg (* exprs)
|
总对整个DataFrame 没有组(简称.agg df.groupBy () () )。 |
DataFrame.alias (别名)
|
返回一个新的DataFrame 设置一个别名。 |
DataFrame.approxQuantile (坳、概率、…)
|
计算的近似数值列的分位数DataFrame 。 |
DataFrame.cache ()
|
持续的DataFrame 使用默认存储水平(MEMORY_AND_DISK)。 |
DataFrame.checkpoint ((渴望))
|
返回一个检查点的版本DataFrame 。 |
DataFrame.coalesce (numPartitions)
|
返回一个新的DataFrame 已经完全numPartitions分区。 |
DataFrame.colRegex (colName)
|
基于列的选择列名称指定为一个正则表达式并返回它列 。 |
DataFrame.collect ()
|
返回所有记录的列表行 。 |
DataFrame.columns
|
返回所有列名列表。 |
DataFrame.corr (col1 col2[方法])
|
计算两列的相关性DataFrame 作为一个双精度值。 |
DataFrame.count ()
|
返回的行数DataFrame 。 |
DataFrame.cov (col1 col2)
|
计算样本协方差为给定的列,指定他们的名字,作为一个双重价值。 |
DataFrame.createGlobalTempView (名字)
|
创建一个全局临时视图DataFrame 。 |
DataFrame.createOrReplaceGlobalTempView (名字)
|
创建或替换一个全局临时视图使用给定的名称。 |
DataFrame.createOrReplaceTempView (名字)
|
创建或替换本地临时视图DataFrame 。 |
DataFrame.createTempView (名字)
|
创建一个本地临时视图DataFrame 。 |
DataFrame.crossJoin (其他)
|
返回笛卡儿积与另一个DataFrame 。 |
DataFrame.crosstab (col1 col2)
|
计算两两频率给定的表列。 |
DataFrame.cube (*峡路)
|
为当前创建多维数据集DataFrame 使用指定的列,所以我们可以运行聚合。 |
DataFrame.describe (*峡路)
|
计算基本统计数字和字符串列。 |
DataFrame.distinct ()
|
返回一个新的DataFrame 包含不同的行DataFrame 。 |
DataFrame.drop (*峡路)
|
返回一个新的DataFrame 这滴指定的列。 |
DataFrame.dropDuplicates ((子集))
|
返回一个新的DataFrame 删除重复的行,选择只考虑某些列。 |
DataFrame.drop_duplicates ((子集))
|
drop_duplicates () 是一个别名dropDuplicates () 。
|
DataFrame.dropna ([如何颠簸,子集])
|
返回一个新的DataFrame 省略具有零值的行。 |
DataFrame.dtypes
|
返回所有列名和数据类型作为一个列表。 |
DataFrame.exceptAll (其他)
|
返回一个新的DataFrame 包含在这行DataFrame 但不是在另一个DataFrame 同时保留副本。 |
DataFrame.explain ([扩展、模式])
|
打印到控制台(逻辑和物理)计划用于调试目的。 |
DataFrame.fillna (价值[,]子集)
|
替换空值,别名na.fill () 。 |
DataFrame.filter (条件)
|
过滤器使用给定的条件行。 |
DataFrame.first ()
|
返回第一行作为一个行 。 |
DataFrame.foreach (f)
|
应用f 函数对所有行 这DataFrame 。 |
DataFrame.foreachPartition (f)
|
应用f 函数的每个分区DataFrame 。 |
DataFrame.freqItems (关口[支持])
|
发现频繁项目列,可能与假阳性。 |
DataFrame.groupBy (*峡路)
|
组的DataFrame 使用指定的列,所以我们可以运行聚合。 |
DataFrame.head ([n])
|
返回第一个n 行。 |
DataFrame.hint (名称、*参数)
|
指定当前的一些提示DataFrame 。 |
DataFrame.inputFiles ()
|
返回一个最优的快照文件组成DataFrame 。 |
DataFrame.intersect (其他)
|
返回一个新的DataFrame 只有在这种包含行DataFrame 和另一个DataFrame 。 |
DataFrame.intersectAll (其他)
|
返回一个新的DataFrame 包含在这行DataFrame 和另一个DataFrame 同时保留副本。 |
DataFrame.isEmpty ()
|
返回真正的 如果这DataFrame 是空的。 |
DataFrame.isLocal ()
|
返回真正的 如果收集() 和带() 方法可以在本地运行(没有任何火花执行人)。 |
DataFrame.isStreaming
|
返回真正的 如果这DataFrame 包含一个或多个源不断地返回数据,因为它的到来。 |
DataFrame.join (其他(,,))
|
连接与另一个DataFrame ,使用给定的连接表达式。 |
DataFrame.limit (num)
|
限制结果数到指定的号码。 |
DataFrame.localCheckpoint ((渴望))
|
返回一个局部检查点的版本DataFrame 。 |
DataFrame.mapInPandas (函数模式)
|
地图批次在当前的迭代器DataFrame 使用Python的本机函数和输出一个熊猫DataFrame,并返回结果DataFrame 。 |
DataFrame.mapInArrow (函数模式)
|
地图批次在当前的迭代器DataFrame 使用Python的本机函数和输出PyArrow的RecordBatch,并返回结果DataFrame 。 |
DataFrame.na
|
返回一个DataFrameNaFunctions 处理缺失值。 |
DataFrame.observe (观察、* exprs)
|
定义(命名)DataFrame指标观察。 |
DataFrame.orderBy (*关口,* * kwargs)
|
返回一个新的DataFrame 按指定的列(s)。 |
DataFrame.persist ([storageLevel])
|
设置存储水平持续的内容DataFrame 在操作后第一次计算。 |
DataFrame.printSchema ()
|
在树格式打印模式。 |
DataFrame.randomSplit (重量、种子)
|
随机将这DataFrame 与所提供的重量。 |
DataFrame.rdd
|
作为一个返回内容pyspark.RDD 的行 。 |
DataFrame.registerTempTable (名字)
|
注册了这家DataFrame 作为一个临时表使用给定的名称。 |
DataFrame.repartition (*关口numPartitions)
|
返回一个新的DataFrame 分区的分区表达式。 |
DataFrame.repartitionByRange (numPartitions…)
|
返回一个新的DataFrame 分区的分区表达式。 |
DataFrame.replace (to_replace[],价值,子集)
|
返回一个新的DataFrame 值替换为另一个值。 |
DataFrame.rollup (*峡路)
|
为当前创建一个多维的汇总DataFrame 使用指定的列,所以我们可以运行聚合。 |
DataFrame.sameSemantics (其他)
|
返回真正的当内部逻辑查询计划DataFrame 年代是相等的,因此返回相同的结果。 |
DataFrame.sample ([withReplacement,…)
|
返回一个样本子集DataFrame 。 |
DataFrame.sampleBy (坳,分数(、种子))
|
返回一个分层抽样不重复每层基于给出的分数。 |
DataFrame.schema
|
返回的模式DataFrame 作为一个pyspark.sql.types.StructType 。 |
DataFrame.select (*峡路)
|
项目一组表达式并返回一个新的DataFrame 。 |
DataFrame.selectExpr (* expr)
|
项目一组SQL表达式,并返回一个新的DataFrame 。 |
DataFrame.semanticHash ()
|
返回一个散列码逻辑查询计划的反对DataFrame 。 |
DataFrame.show ([n,截断,垂直])
|
印第n 行到控制台。 |
DataFrame.sort (*关口,* * kwargs)
|
返回一个新的DataFrame 按指定的列(s)。 |
DataFrame.sortWithinPartitions (*关口,* * kwargs)
|
返回一个新的DataFrame 与每个分区按指定的列(s)。 |
DataFrame.sparkSession
|
返回会话创建这个火花DataFrame 。 |
DataFrame.stat
|
返回一个DataFrameStatFunctions 统计功能。 |
DataFrame.storageLevel
|
得到了DataFrame 目前的存储水平。 |
DataFrame.subtract (其他)
|
返回一个新的DataFrame 包含在这行DataFrame 但不是在另一个DataFrame 。 |
DataFrame.summary (*统计)
|
计算指定的统计数字和字符串列。 |
DataFrame.tail (num)
|
返回最后一个全国矿工工会 行作为一个列表 的行 。 |
DataFrame.take (num)
|
返回第一个全国矿工工会 行作为一个列表 的行 。 |
DataFrame.toDF (*峡路)
|
返回一个新的DataFrame 与新指定的列名 |
DataFrame.toJSON ([use_unicode])
|
转换DataFrame 成一个抽样 的字符串。 |
DataFrame.toLocalIterator ([prefetchPartitions])
|
返回一个迭代器,包含所有的行DataFrame 。 |
DataFrame.toPandas ()
|
返回的内容DataFrame 像熊猫pandas.DataFrame 。 |
DataFrame.to_pandas_on_spark ([index_col])
|
|
DataFrame.transform (* args func * * kwargs)
|
返回一个新的DataFrame 。 |
DataFrame.union (其他)
|
返回一个新的DataFrame 在这个和另一个包含的行DataFrame 。 |
DataFrame.unionAll (其他)
|
返回一个新的DataFrame 在这个和另一个包含的行DataFrame 。 |
DataFrame.unionByName (其他[…])
|
返回一个新的DataFrame 在这个和另一个包含的行DataFrame 。 |
DataFrame.unpersist ((阻塞))
|
标志着DataFrame 非持久性,并删除所有从内存和磁盘块。 |
DataFrame.where (条件)
|
在() 是一个别名filter () 。
|
DataFrame.withColumn (colName坳)
|
返回一个新的DataFrame 通过添加一个列或替换现有的列有相同的名字。 |
DataFrame.withColumns (* colsMap)
|
返回一个新的DataFrame 通过添加多个列或替换现有的列有相同的名字。 |
DataFrame.withColumnRenamed (现有的)
|
返回一个新的DataFrame 通过重命名一个已有的列。 |
DataFrame.withMetadata (columnName元数据)
|
返回一个新的DataFrame 通过更新现有列元数据。 |
DataFrame.withWatermark (eventTime…)
|
定义了一个事件时间水印DataFrame 。 |
DataFrame.write
|
界面保存的内容的非DataFrame 到外部存储。 |
DataFrame.writeStream
|
界面保存的内容流DataFrame 到外部存储。 |
DataFrame.writeTo (表)
|
创建一个为v2消息编写配置构建器。 |
DataFrame.pandas_api ([index_col])
|
现有DataFrame转换成pandas-on-Spark DataFrame。 |
DataFrameNaFunctions.drop ([如何颠簸,子集])
|
返回一个新的DataFrame 省略具有零值的行。 |
DataFrameNaFunctions.fill (价值[,]子集)
|
替换空值,别名na.fill () 。 |
DataFrameNaFunctions.replace (to_replace […])
|
返回一个新的DataFrame 值替换为另一个值。 |
DataFrameStatFunctions.approxQuantile (col…)
|
计算的近似数值列的分位数DataFrame 。 |
DataFrameStatFunctions.corr (col1 col2[方法])
|
计算两列的相关性DataFrame 作为一个双精度值。 |
DataFrameStatFunctions.cov (col1 col2)
|
计算样本协方差为给定的列,指定他们的名字,作为一个双重价值。 |
DataFrameStatFunctions.crosstab (col1 col2)
|
计算两两频率给定的表列。 |
DataFrameStatFunctions.freqItems (关口[支持])
|
发现频繁项目列,可能与假阳性。 |
DataFrameStatFunctions.sampleBy (坳,分数)
|
返回一个分层抽样不重复每层基于给出的分数。 |