DataFrame¶

构造函数¶

DataFrame([数据、索引、列dtype,复制))

pandas-on-Spark DataFrame对应于熊猫DataFrame逻辑。

属性和基础数据¶

`DataFrame.index`	该指数DataFrame(行标签)列。
`DataFrame.columns`	DataFrame的列标签。
`DataFrame.empty`	返回true,如果当前DataFrame是空的。

`DataFrame.dtypes`	返回dtypes DataFrame。
`DataFrame.shape`	返回一个元组代表DataFrame的维度。
`DataFrame.axes`	返回一个列表代表DataFrame的轴。
`DataFrame.ndim`	返回一个int数组维数代表的数量。
`DataFrame.size`	返回一个int代表该对象的元素数量。
`DataFrame.select_dtypes`([包括,排除])	返回的一个子集DataFrame dtypes基于列的列。
`DataFrame.values`	返回一个Numpy DataFrame或系列的代表。

转换¶

`DataFrame.copy`((深))	复制这个对象的指标和数据。
`DataFrame.isna`()	检测项目在当前Dataframe缺失值。
`DataFrame.astype`(dtype)	把指定dtype pandas-on-Spark对象`dtype`。
`DataFrame.isnull`()	检测项目在当前Dataframe缺失值。
`DataFrame.notna`()	检测项目在当前Dataframe non-missing值。
`DataFrame.notnull`()	检测项目在当前Dataframe non-missing值。
`DataFrame.pad`([轴,原地,限制])	的同义词DataFrame.fillna ()或Series.fillna ()与`方法= ' ffill '`。
`DataFrame.bool`()	返回布尔值的单个元素在当前对象。

索引、迭代¶

`DataFrame.at`	获取一个值,一双行/列标签。
`DataFrame.iat`	获取一个值为一对行/列整数位置。
`DataFrame.head`([n])	返回第一个n行。
`DataFrame.idxmax`((轴))	回报指数首次出现的最大要求轴。
`DataFrame.idxmin`((轴))	回报指数首次出现的最低要求的轴。
`DataFrame.loc`	访问一组行和列的标签(s)或一个布尔系列。
`DataFrame.iloc`	纯粹基于integer-location索引选择的位置。
`DataFrame.items`()	这是一个别名`iteritems`。
`DataFrame.iteritems`()	迭代器/(列名,系列)对。
`DataFrame.iterrows`()	遍历DataFrame行(指数系列)对。
`DataFrame.itertuples`([指数名称])	遍历DataFrame namedtuples行。
`DataFrame.keys`()	返回列的别名。
`DataFrame.pop`(项)	返回项目,从框架。
`DataFrame.tail`([n])	返回最后一个n行。
`DataFrame.xs`(关键、轴、水平)	返回从DataFrame截面。
`DataFrame.get`(关键(违约))	获取项目从对象给定键(DataFrame列,板片等)。
`DataFrame.where`(气孔导度、其他轴)	替换值的条件是错误的。
`DataFrame.mask`(气孔导度[其他])	更换条件为真值。
`DataFrame.query`(expr[,原地])	查询的列DataFrame布尔表达式。

二元运算符函数¶

`DataFrame.add`(其他)	除了dataframe和其他,element-wise(二元运算符+)。
`DataFrame.radd`(其他)	除了dataframe和其他,element-wise(二元运算符+)。
`DataFrame.div`(其他)	获得浮动dataframe分工和其他element-wise(二元运算符/)。
`DataFrame.rdiv`(其他)	获得浮动dataframe分工和其他element-wise(二元运算符/)。
`DataFrame.truediv`(其他)	获得浮动dataframe分工和其他element-wise(二元运算符/)。
`DataFrame.rtruediv`(其他)	获得浮动dataframe分工和其他element-wise(二元运算符/)。
`DataFrame.mul`(其他)	乘法dataframe和其他,element-wise(二元运算符*)。
`DataFrame.rmul`(其他)	乘法dataframe和其他,element-wise(二元运算符*)。
`DataFrame.sub`(其他)	减法dataframe和其他,element-wise(二元运算符- - - - - -)。
`DataFrame.rsub`(其他)	减法dataframe和其他,element-wise(二元运算符- - - - - -)。
`DataFrame.pow`(其他)	得到指数dataframe系列和其他的力量,element-wise(二元运算符* *)。
`DataFrame.rpow`(其他)	得到指数dataframe和其他的力量,element-wise(二元运算符* *)。
`DataFrame.mod`(其他)	dataframe模等,element-wise(二元运算符%)。
`DataFrame.rmod`(其他)	dataframe模等,element-wise(二元运算符%)。
`DataFrame.floordiv`(其他)	得到整数dataframe分工和其他,element-wise(二元运算符/ /)。
`DataFrame.rfloordiv`(其他)	得到整数dataframe分工和其他,element-wise(二元运算符/ /)。
`DataFrame.lt`(其他)	比较如果当前值小于另一个。
`DataFrame.gt`(其他)	比较如果当前值大于另一个。
`DataFrame.le`(其他)	比较如果当前值小于或等于另一个。
`DataFrame.ge`(其他)	比较当前值是否大于或等于另一个。
`DataFrame.ne`(其他)	比较,如果当前值不等于另一个。
`DataFrame.eq`(其他)	比较如果当前值等于另一个。
`DataFrame.dot`(其他)	计算DataFrame和其他之间的矩阵乘法。
`DataFrame.combine_first`(其他)	更新null元素值在同一位置其他。

函数的应用程序,GroupBy &窗口¶

`DataFrame.apply`(func(轴,args))	应用一个函数DataFrame沿着一个轴。
`DataFrame.applymap`(函数)	一个函数应用于Dataframe elementwise。
`DataFrame.pipe`(* args func * * kwargs)	应用函数(自我,* args, * * kwargs)。
`DataFrame.agg`(函数)	总轴指定使用一个或多个操作。
`DataFrame.aggregate`(函数)	总轴指定使用一个或多个操作。
`DataFrame.groupby`(由轴、as_index dropna])	使用一系列列组DataFrame或系列。
`DataFrame.rolling`(窗口[min_periods])	提供轧制转换。
`DataFrame.expanding`([min_periods])	提供扩展转换。
`DataFrame.transform`(func(轴))	调用`函数`与改变了价值观和自我生产一系列具有相同的长度作为它的输入。

计算/描述性统计¶

`DataFrame.abs`()	返回一个系列/ DataFrame与每个元素的绝对数值。
`DataFrame.all`([轴,bool_only skipna])	返回所有元素是否正确。
`DataFrame.any`([轴,bool_only])	返回任何元素是否为真。
`DataFrame.clip`([低,上层])	调整值在输入阈值(s)。
`DataFrame.corr`([方法])	计算两两相关的列,不包括NA / null值。
`DataFrame.corrwith`(其他[下降,方法])	计算两两相关。
`DataFrame.count`([轴,numeric_only])	对每一列数non-NA细胞。
`DataFrame.cov`([min_periods])	协方差计算两两列,不包括NA / null值。
`DataFrame.describe`((百分位数))	产生描述性统计,总结集中趋势,分散和形状数据集的分布、排除`南`值。
`DataFrame.kurt`([轴,skipna numeric_only])	返回不偏峰度使用费舍尔峰度的定义(峰度正常= = 0.0)。
`DataFrame.kurtosis`([轴,skipna numeric_only])	返回不偏峰度使用费舍尔峰度的定义(峰度正常= = 0.0)。
`DataFrame.mad`((轴))	返回值的平均绝对偏差。
`DataFrame.max`([轴,skipna numeric_only])	返回值的最大。
`DataFrame.mean`([轴,skipna numeric_only])	返回值的均值。
`DataFrame.min`([轴,skipna numeric_only])	返回的最小值。
`DataFrame.median`([轴、skipna…)	返回所请求的轴的值的中值。
`DataFrame.pct_change`([时间])	当前和前一个元素之间的百分比变化。
`DataFrame.prod`([轴,skipna、numeric_only…))	返回值的乘积。
`DataFrame.product`([轴、skipna…)	返回值的乘积。
`DataFrame.quantile`([q,轴,numeric_only,…)	返回值在给定的分位数。
`DataFrame.nunique`([轴,dropna,大约,rsd])	返回对象的独特的元素数量。
`DataFrame.sem`([轴、skipna ddof numeric_only])	返回所请求无偏平均数标准误差在轴。
`DataFrame.skew`([轴,skipna numeric_only])	返回无偏斜规范化的n - 1。
`DataFrame.sum`([轴,skipna、numeric_only…))	返回值的总和。
`DataFrame.std`([轴、skipna ddof numeric_only])	返回样本标准差。
`DataFrame.var`([轴,ddof numeric_only])	均方差的回报。
`DataFrame.cummin`([skipna])	返回累积在DataFrame最低或系列轴。
`DataFrame.cummax`([skipna])	返回在DataFrame累积最大或系列轴。
`DataFrame.cumsum`([skipna])	返回累积求和DataFrame或系列轴。
`DataFrame.cumprod`([skipna])	返回在DataFrame累积产品或系列轴。
`DataFrame.round`((小数))	圆一个DataFrame数量可变的位小数。
`DataFrame.diff`([时期,轴])	第一个离散元素的差异。
`DataFrame.eval`(expr[,原地])	评估一个字符串描述DataFrame列的操作。

重建索引/选择/标签操作¶

`DataFrame.add_prefix`(前缀)	前缀标签用绳子前缀。
`DataFrame.add_suffix`(后缀)	后缀标签用绳子后缀。
`DataFrame.align`(其他[加入,轴,复制))	使两个物体的轴与指定的连接方法。
`DataFrame.at_time`(时间(asof,轴))	选择在一天中的特定时间值(例如:)早上九时三十分。
`DataFrame.between_time`(start_time end_time)	选择在一天的特定时间之间的值(例如:9:00-9:30点)。
`DataFrame.drop`([标签、轴、索引列])	从列指定的标签。
`DataFrame.droplevel`(水平轴])	返回所请求DataFrame与索引/列级(s)移除。
`DataFrame.drop_duplicates`([子集,保持,…)	返回DataFrame删除重复的行,选择只考虑某些列。
`DataFrame.duplicated`([子集,保持])	返回布尔系列表示重复的行,选择只考虑某些列。
`DataFrame.equals`(其他)	比较如果当前值等于另一个。
`DataFrame.filter`([项目,正则表达式,轴])	行或列的子集dataframe根据标签指定的索引。
`DataFrame.first`(抵消)	选择第一个基于日期的时间序列数据偏移量。
`DataFrame.head`([n])	返回第一个n行。
`DataFrame.last`(抵消)	选择最终的时间序列数据基于日期抵消。
`DataFrame.rename`([映射器、索引列,…))	改变轴标签。
`DataFrame.rename_axis`([映射器、索引…])	设置轴为索引或列的名称。
`DataFrame.reset_index`([水平下降,…)	重置指数水平。
`DataFrame.set_index`(键(,下降,添加,…))	设置DataFrame指数(行标签)使用一个或多个现有的列。
`DataFrame.swapaxes`(i, j[,复制)	适当的交换和交换值轴轴。
`DataFrame.swaplevel`((i, j,轴))	交换水平i和j在特定MultiIndex轴。
`DataFrame.take`(指数[,轴)	返回给定的元素位置指数沿着一个轴。
`DataFrame.isin`(值)	DataFrame中的每个元素是否包含在价值观。
`DataFrame.sample`([n,压裂、替换…])	返回一个随机样本的物品从一个轴的对象。
`DataFrame.truncate`([之前,之后,轴,复制])	截断或一系列DataFrame之前和之后的一些索引值。

缺失的数据处理¶

`DataFrame.backfill`([轴,原地,限制])	的同义词DataFrame.fillna ()或Series.fillna ()与`方法= ' bfill '`。
`DataFrame.dropna`([轴,如何打,…)	删除缺失值。
`DataFrame.fillna`([值,方法,轴,…))	填补NA / NaN值。
`DataFrame.replace`([to_replace、价值…])	返回一个新的DataFrame值替换为另一个值。
`DataFrame.bfill`([轴,原地,限制])	的同义词DataFrame.fillna ()或Series.fillna ()与`方法= ' bfill '`。
`DataFrame.ffill`([轴,原地,限制])	的同义词DataFrame.fillna ()或Series.fillna ()与`方法= ' ffill '`。
`DataFrame.interpolate`((方法、限制…))	填补NaN值使用插值法。

重塑、排序置换¶

`DataFrame.pivot_table`((价值观、索引…))	创建一个spreadsheet-style DataFrame数据透视表。
`DataFrame.pivot`((指数、列值))	返回重塑DataFrame由给定的索引/列值。
`DataFrame.sort_index`((轴,水平,…))	类对象的标签(沿着一个轴)
`DataFrame.sort_values`(通过(提升,…))	通过值沿轴。
`DataFrame.nlargest`(n,列[,])	返回第一个n行命令列在降序排列。
`DataFrame.nsmallest`(n,列[,])	返回第一个n行命令列以升序排序。
`DataFrame.stack`()	堆栈(s)规定的级别从列索引。
`DataFrame.unstack`()	主(一定层次)索引标签。
`DataFrame.melt`([id_vars value_vars,…)	透视的DataFrame宽格式长格式,选择离开标识符变量集。
`DataFrame.explode`(列[,ignore_index])	行变换的每个元素类似,复制索引值。
`DataFrame.squeeze`((轴))	挤压1维轴标量对象。
`DataFrame.T`	转置索引和列。
`DataFrame.transpose`()	转置索引和列。
`DataFrame.reindex`((标签、索引列,…))	符合DataFrame与可选填新索引逻辑,把NA /南在前面的位置没有价值指数。
`DataFrame.reindex_like`(其他(复制))	像其他对象返回一个DataFrame与匹配指数。
`DataFrame.rank`([方法、提升numeric_only])	计算数值数据(1到n)沿轴。

结合/加入/合并¶

`DataFrame.append`(其他[ignore_index,…)	行其他附加到调用者,返回一个新对象。
`DataFrame.assign`(* * kwargs)	DataFrame分配新列。
`DataFrame.merge`(右[,,,left_on…))	合并DataFrame对象数据库样式加入。
`DataFrame.join`(右(,,,lsuffix,…))	另一个DataFrame的连接列。
`DataFrame.update`(其他[,加入,覆盖])	从另一个DataFrame使用non-NA值修改到位。
`DataFrame.insert`(代码行、列值[…])	在指定位置插入列DataFrame。

序列化/ IO /转换¶

`DataFrame.from_records`(数据、索引、…)	结构化或记录ndarray DataFrame进行转换。
`DataFrame.info`([冗长,但,max_cols…))	打印一个简明的总结DataFrame。
`DataFrame.to_table`(名称、格式、模式,…))	写DataFrame火花表。
`DataFrame.to_delta`(路径、模式、…)	写DataFrame三角洲湖表。
`DataFrame.to_parquet`(路径、模式、…)	写DataFrame拼花文件或目录。
`DataFrame.to_spark_io`([路径、格式、模式、…))	写DataFrame火花数据源。
`DataFrame.to_csv`([路径,9月,na_rep…))	对象写入一个逗号分隔值(csv)文件。
`DataFrame.to_pandas`()	返回一个熊猫DataFrame。
`DataFrame.to_html`([buf、列col_space,…)	呈现一个DataFrame作为HTML表。
`DataFrame.to_numpy`()	一个NumPy ndarray DataFrame或系列的代表值。
`DataFrame.to_spark`([index_col])	引发相关功能。
`DataFrame.to_string`((buf、列…))	呈现一个友好的控制台DataFrame表格输出。
`DataFrame.to_json`([路径、压缩、…)	将对象转换为一个JSON字符串。
`DataFrame.to_dict`([东方,])	DataFrame转换为一本字典。
`DataFrame.to_excel`(excel_writer […])	对象写入一个Excel表。
`DataFrame.to_clipboard`([excel, 9])	将对象复制到系统剪贴板。
`DataFrame.to_markdown`([buf模式])	打印系列或DataFrame Markdown-friendly格式。
`DataFrame.to_records`((索引、column_dtypes…))	DataFrame转换为NumPy记录数组中。
`DataFrame.to_latex`((buf、列…))	呈现一个对象乳胶表格环境表。
`DataFrame.style`	属性返回一个斯泰勒对象包含的方法构建一个风格DataFrame HTML表示。

策划¶

DataFrame.plot既是一个可调用的方法和一个名称空间属性为特定形式的策划方法DataFrame.plot。<一>。

`DataFrame.plot`	的别名`pyspark.pandas.plot.core.PandasOnSparkPlotAccessor`
`DataFrame.plot.area`((x, y))	画一个堆放区域的。
`DataFrame.plot.barh`((x, y))	单杠的阴谋。
`DataFrame.plot.bar`((x, y))	竖线阴谋。
`DataFrame.plot.hist`((箱))	画一个直方图DataFrame的列。
`DataFrame.plot.box`(* * kwds)	做一个系列的箱线图列。
`DataFrame.plot.line`((x, y))	情节DataFrame /系列。
`DataFrame.plot.pie`(* * kwds)	生成饼图。
`DataFrame.plot.scatter`(x, y, * * kwds)	创建一个散点图不同大小和颜色标记点。
`DataFrame.plot.density`([bw_method,印第安纳州])	使用高斯内核生成核密度估计的阴谋。
`DataFrame.hist`((箱))	画一个直方图DataFrame的列。
`DataFrame.boxplot`(* * kwds)	做一个系列的箱线图列。
`DataFrame.kde`([bw_method,印第安纳州])	使用高斯内核生成核密度估计的阴谋。

Pandas-on-Spark特定¶

DataFrame.pandas_on_spark提供pandas-on-Spark特定功能,只存在于熊猫API火花。这些可以访问DataFrame.pandas_on_spark。<函数/属性>。

`DataFrame.pandas_on_spark.apply_batch`(函数)	应用一个函数需要熊猫熊猫DataFrame DataFrame和输出。
`DataFrame.pandas_on_spark.transform_batch`(…)	变换块的功能需要熊猫熊猫DataFrame DataFrame和输出。

以前的

pyspark.pandas.Series.pandas_on_spark.transform_batch

下一个

pyspark.pandas.DataFrame

`DataFrame.resample`(规则(关于),关闭,标签,)	重新取样时间序列数据。
`DataFrame.shift`([时期,fill_value])	转变DataFrame所需数量的时期。
`DataFrame.first_valid_index`()	检索第一个有效的索引值。
`DataFrame.last_valid_index`()	回报指数去年non-NA /空值。

`DataFrame.spark.frame`([index_col])	返回当前DataFrame DataFrame火花。
`DataFrame.spark.cache`()	当前DataFrame收益率和缓存。
`DataFrame.spark.persist`([storage_level])	产量和当前具有特定StorageLevel DataFrame缓存。
`DataFrame.spark.hint`(名称、*参数)	指定当前DataFrame一些提示。
`DataFrame.spark.to_table`(名称、格式、…)	写DataFrame火花表。
`DataFrame.spark.to_spark_io`([路径、格式、…)	写DataFrame火花数据源。
`DataFrame.spark.apply`(函数[index_col])	适用于一个函数,并返回一个火花DataFrame。
`DataFrame.spark.repartition`(num_partitions)	返回一个新的DataFrame分区的分区表达式。
`DataFrame.spark.coalesce`(num_partitions)	返回一个新的DataFrame到底num_partitions分区。