DataFrame

构造函数

DataFrame([数据、索引、列dtype,复制))

pandas-on-Spark DataFrame对应于熊猫DataFrame逻辑。

属性和基础数据

DataFrame.index

该指数DataFrame(行标签)列。

DataFrame.columns

DataFrame的列标签。

DataFrame.empty

返回true,如果当前DataFrame是空的。

DataFrame.dtypes

返回dtypes DataFrame。

DataFrame.shape

返回一个元组代表DataFrame的维度。

DataFrame.axes

返回一个列表代表DataFrame的轴。

DataFrame.ndim

返回一个int数组维数代表的数量。

DataFrame.size

返回一个int代表该对象的元素数量。

DataFrame.select_dtypes([包括,排除])

返回的一个子集DataFrame dtypes基于列的列。

DataFrame.values

返回一个Numpy DataFrame或系列的代表。

转换

DataFrame.copy((深))

复制这个对象的指标和数据。

DataFrame.isna()

检测项目在当前Dataframe缺失值。

DataFrame.astype(dtype)

把指定dtype pandas-on-Spark对象dtype

DataFrame.isnull()

检测项目在当前Dataframe缺失值。

DataFrame.notna()

检测项目在当前Dataframe non-missing值。

DataFrame.notnull()

检测项目在当前Dataframe non-missing值。

DataFrame.pad([轴,原地,限制])

的同义词DataFrame.fillna ()Series.fillna ()方法= ' ffill '

DataFrame.bool()

返回布尔值的单个元素在当前对象。

索引、迭代

DataFrame.at

获取一个值,一双行/列标签。

DataFrame.iat

获取一个值为一对行/列整数位置。

DataFrame.head([n])

返回第一个n行。

DataFrame.idxmax((轴))

回报指数首次出现的最大要求轴。

DataFrame.idxmin((轴))

回报指数首次出现的最低要求的轴。

DataFrame.loc

访问一组行和列的标签(s)或一个布尔系列。

DataFrame.iloc

纯粹基于integer-location索引选择的位置。

DataFrame.items()

这是一个别名iteritems

DataFrame.iteritems()

迭代器/(列名,系列)对。

DataFrame.iterrows()

遍历DataFrame行(指数系列)对。

DataFrame.itertuples([指数名称])

遍历DataFrame namedtuples行。

DataFrame.keys()

返回列的别名。

DataFrame.pop(项)

返回项目,从框架。

DataFrame.tail([n])

返回最后一个n行。

DataFrame.xs(关键、轴、水平)

返回从DataFrame截面。

DataFrame.get(关键(违约))

获取项目从对象给定键(DataFrame列,板片等)。

DataFrame.where(气孔导度、其他轴)

替换值的条件是错误的。

DataFrame.mask(气孔导度[其他])

更换条件为真值。

DataFrame.query(expr[,原地])

查询的列DataFrame布尔表达式。

二元运算符函数

DataFrame.add(其他)

除了dataframe和其他,element-wise(二元运算符+)。

DataFrame.radd(其他)

除了dataframe和其他,element-wise(二元运算符+)。

DataFrame.div(其他)

获得浮动dataframe分工和其他element-wise(二元运算符/)。

DataFrame.rdiv(其他)

获得浮动dataframe分工和其他element-wise(二元运算符/)。

DataFrame.truediv(其他)

获得浮动dataframe分工和其他element-wise(二元运算符/)。

DataFrame.rtruediv(其他)

获得浮动dataframe分工和其他element-wise(二元运算符/)。

DataFrame.mul(其他)

乘法dataframe和其他,element-wise(二元运算符*)。

DataFrame.rmul(其他)

乘法dataframe和其他,element-wise(二元运算符*)。

DataFrame.sub(其他)

减法dataframe和其他,element-wise(二元运算符- - - - - -)。

DataFrame.rsub(其他)

减法dataframe和其他,element-wise(二元运算符- - - - - -)。

DataFrame.pow(其他)

得到指数dataframe系列和其他的力量,element-wise(二元运算符* *)。

DataFrame.rpow(其他)

得到指数dataframe和其他的力量,element-wise(二元运算符* *)。

DataFrame.mod(其他)

dataframe模等,element-wise(二元运算符%)。

DataFrame.rmod(其他)

dataframe模等,element-wise(二元运算符%)。

DataFrame.floordiv(其他)

得到整数dataframe分工和其他,element-wise(二元运算符/ /)。

DataFrame.rfloordiv(其他)

得到整数dataframe分工和其他,element-wise(二元运算符/ /)。

DataFrame.lt(其他)

比较如果当前值小于另一个。

DataFrame.gt(其他)

比较如果当前值大于另一个。

DataFrame.le(其他)

比较如果当前值小于或等于另一个。

DataFrame.ge(其他)

比较当前值是否大于或等于另一个。

DataFrame.ne(其他)

比较,如果当前值不等于另一个。

DataFrame.eq(其他)

比较如果当前值等于另一个。

DataFrame.dot(其他)

计算DataFrame和其他之间的矩阵乘法。

DataFrame.combine_first(其他)

更新null元素值在同一位置其他

函数的应用程序,GroupBy &窗口

DataFrame.apply(func(轴,args))

应用一个函数DataFrame沿着一个轴。

DataFrame.applymap(函数)

一个函数应用于Dataframe elementwise。

DataFrame.pipe(* args func * * kwargs)

应用函数(自我,* args, * * kwargs)。

DataFrame.agg(函数)

总轴指定使用一个或多个操作。

DataFrame.aggregate(函数)

总轴指定使用一个或多个操作。

DataFrame.groupby(由轴、as_index dropna])

使用一系列列组DataFrame或系列。

DataFrame.rolling(窗口[min_periods])

提供轧制转换。

DataFrame.expanding([min_periods])

提供扩展转换。

DataFrame.transform(func(轴))

调用函数与改变了价值观和自我生产一系列具有相同的长度作为它的输入。

计算/描述性统计

DataFrame.abs()

返回一个系列/ DataFrame与每个元素的绝对数值。

DataFrame.all([轴,bool_only skipna])

返回所有元素是否正确。

DataFrame.any([轴,bool_only])

返回任何元素是否为真。

DataFrame.clip([低,上层])

调整值在输入阈值(s)。

DataFrame.corr([方法])

计算两两相关的列,不包括NA / null值。

DataFrame.corrwith(其他[下降,方法])

计算两两相关。

DataFrame.count([轴,numeric_only])

对每一列数non-NA细胞。

DataFrame.cov([min_periods])

协方差计算两两列,不包括NA / null值。

DataFrame.describe((百分位数))

产生描述性统计,总结集中趋势,分散和形状数据集的分布、排除值。

DataFrame.kurt([轴,skipna numeric_only])

返回不偏峰度使用费舍尔峰度的定义(峰度正常= = 0.0)。

DataFrame.kurtosis([轴,skipna numeric_only])

返回不偏峰度使用费舍尔峰度的定义(峰度正常= = 0.0)。

DataFrame.mad((轴))

返回值的平均绝对偏差。

DataFrame.max([轴,skipna numeric_only])

返回值的最大。

DataFrame.mean([轴,skipna numeric_only])

返回值的均值。

DataFrame.min([轴,skipna numeric_only])

返回的最小值。

DataFrame.median([轴、skipna…)

返回所请求的轴的值的中值。

DataFrame.pct_change([时间])

当前和前一个元素之间的百分比变化。

DataFrame.prod([轴,skipna、numeric_only…))

返回值的乘积。

DataFrame.product([轴、skipna…)

返回值的乘积。

DataFrame.quantile([q,轴,numeric_only,…)

返回值在给定的分位数。

DataFrame.nunique([轴,dropna,大约,rsd])

返回对象的独特的元素数量。

DataFrame.sem([轴、skipna ddof numeric_only])

返回所请求无偏平均数标准误差在轴。

DataFrame.skew([轴,skipna numeric_only])

返回无偏斜规范化的n - 1。

DataFrame.sum([轴,skipna、numeric_only…))

返回值的总和。

DataFrame.std([轴、skipna ddof numeric_only])

返回样本标准差。

DataFrame.var([轴,ddof numeric_only])

均方差的回报。

DataFrame.cummin([skipna])

返回累积在DataFrame最低或系列轴。

DataFrame.cummax([skipna])

返回在DataFrame累积最大或系列轴。

DataFrame.cumsum([skipna])

返回累积求和DataFrame或系列轴。

DataFrame.cumprod([skipna])

返回在DataFrame累积产品或系列轴。

DataFrame.round((小数))

圆一个DataFrame数量可变的位小数。

DataFrame.diff([时期,轴])

第一个离散元素的差异。

DataFrame.eval(expr[,原地])

评估一个字符串描述DataFrame列的操作。

重建索引/选择/标签操作

DataFrame.add_prefix(前缀)

前缀标签用绳子前缀

DataFrame.add_suffix(后缀)

后缀标签用绳子后缀

DataFrame.align(其他[加入,轴,复制))

使两个物体的轴与指定的连接方法。

DataFrame.at_time(时间(asof,轴))

选择在一天中的特定时间值(例如:)早上九时三十分。

DataFrame.between_time(start_time end_time)

选择在一天的特定时间之间的值(例如:9:00-9:30点)。

DataFrame.drop([标签、轴、索引列])

从列指定的标签。

DataFrame.droplevel(水平轴])

返回所请求DataFrame与索引/列级(s)移除。

DataFrame.drop_duplicates([子集,保持,…)

返回DataFrame删除重复的行,选择只考虑某些列。

DataFrame.duplicated([子集,保持])

返回布尔系列表示重复的行,选择只考虑某些列。

DataFrame.equals(其他)

比较如果当前值等于另一个。

DataFrame.filter([项目,正则表达式,轴])

行或列的子集dataframe根据标签指定的索引。

DataFrame.first(抵消)

选择第一个基于日期的时间序列数据偏移量。

DataFrame.head([n])

返回第一个n行。

DataFrame.last(抵消)

选择最终的时间序列数据基于日期抵消。

DataFrame.rename([映射器、索引列,…))

改变轴标签。

DataFrame.rename_axis([映射器、索引…])

设置轴为索引或列的名称。

DataFrame.reset_index([水平下降,…)

重置指数水平。

DataFrame.set_index(键(,下降,添加,…))

设置DataFrame指数(行标签)使用一个或多个现有的列。

DataFrame.swapaxes(i, j[,复制)

适当的交换和交换值轴轴。

DataFrame.swaplevel((i, j,轴))

交换水平i和j在特定MultiIndex轴。

DataFrame.take(指数[,轴)

返回给定的元素位置指数沿着一个轴。

DataFrame.isin(值)

DataFrame中的每个元素是否包含在价值观。

DataFrame.sample([n,压裂、替换…])

返回一个随机样本的物品从一个轴的对象。

DataFrame.truncate([之前,之后,轴,复制])

截断或一系列DataFrame之前和之后的一些索引值。

缺失的数据处理

DataFrame.backfill([轴,原地,限制])

的同义词DataFrame.fillna ()Series.fillna ()方法= ' bfill '

DataFrame.dropna([轴,如何打,…)

删除缺失值。

DataFrame.fillna([值,方法,轴,…))

填补NA / NaN值。

DataFrame.replace([to_replace、价值…])

返回一个新的DataFrame值替换为另一个值。

DataFrame.bfill([轴,原地,限制])

的同义词DataFrame.fillna ()Series.fillna ()方法= ' bfill '

DataFrame.ffill([轴,原地,限制])

的同义词DataFrame.fillna ()Series.fillna ()方法= ' ffill '

DataFrame.interpolate((方法、限制…))

填补NaN值使用插值法。

重塑、排序置换

DataFrame.pivot_table((价值观、索引…))

创建一个spreadsheet-style DataFrame数据透视表。

DataFrame.pivot((指数、列值))

返回重塑DataFrame由给定的索引/列值。

DataFrame.sort_index((轴,水平,…))

类对象的标签(沿着一个轴)

DataFrame.sort_values(通过(提升,…))

通过值沿轴。

DataFrame.nlargest(n,列[,])

返回第一个n行命令在降序排列。

DataFrame.nsmallest(n,列[,])

返回第一个n行命令以升序排序。

DataFrame.stack()

堆栈(s)规定的级别从列索引。

DataFrame.unstack()

主(一定层次)索引标签。

DataFrame.melt([id_vars value_vars,…)

透视的DataFrame宽格式长格式,选择离开标识符变量集。

DataFrame.explode(列[,ignore_index])

行变换的每个元素类似,复制索引值。

DataFrame.squeeze((轴))

挤压1维轴标量对象。

DataFrame.T

转置索引和列。

DataFrame.transpose()

转置索引和列。

DataFrame.reindex((标签、索引列,…))

符合DataFrame与可选填新索引逻辑,把NA /南在前面的位置没有价值指数。

DataFrame.reindex_like(其他(复制))

像其他对象返回一个DataFrame与匹配指数。

DataFrame.rank([方法、提升numeric_only])

计算数值数据(1到n)沿轴。

结合/加入/合并

DataFrame.append(其他[ignore_index,…)

行其他附加到调用者,返回一个新对象。

DataFrame.assign(* * kwargs)

DataFrame分配新列。

DataFrame.merge(右[,,,left_on…))

合并DataFrame对象数据库样式加入。

DataFrame.join(右(,,,lsuffix,…))

另一个DataFrame的连接列。

DataFrame.update(其他[,加入,覆盖])

从另一个DataFrame使用non-NA值修改到位。

DataFrame.insert(代码行、列值[…])

在指定位置插入列DataFrame。

序列化/ IO /转换

DataFrame.from_records(数据、索引、…)

结构化或记录ndarray DataFrame进行转换。

DataFrame.info([冗长,但,max_cols…))

打印一个简明的总结DataFrame。

DataFrame.to_table(名称、格式、模式,…))

写DataFrame火花表。

DataFrame.to_delta(路径、模式、…)

写DataFrame三角洲湖表。

DataFrame.to_parquet(路径、模式、…)

写DataFrame拼花文件或目录。

DataFrame.to_spark_io([路径、格式、模式、…))

写DataFrame火花数据源。

DataFrame.to_csv([路径,9月,na_rep…))

对象写入一个逗号分隔值(csv)文件。

DataFrame.to_pandas()

返回一个熊猫DataFrame。

DataFrame.to_html([buf、列col_space,…)

呈现一个DataFrame作为HTML表。

DataFrame.to_numpy()

一个NumPy ndarray DataFrame或系列的代表值。

DataFrame.to_spark([index_col])

引发相关功能。

DataFrame.to_string((buf、列…))

呈现一个友好的控制台DataFrame表格输出。

DataFrame.to_json([路径、压缩、…)

将对象转换为一个JSON字符串。

DataFrame.to_dict([东方,])

DataFrame转换为一本字典。

DataFrame.to_excel(excel_writer […])

对象写入一个Excel表。

DataFrame.to_clipboard([excel, 9])

将对象复制到系统剪贴板。

DataFrame.to_markdown([buf模式])

打印系列或DataFrame Markdown-friendly格式。

DataFrame.to_records((索引、column_dtypes…))

DataFrame转换为NumPy记录数组中。

DataFrame.to_latex((buf、列…))

呈现一个对象乳胶表格环境表。

DataFrame.style

属性返回一个斯泰勒对象包含的方法构建一个风格DataFrame HTML表示。

策划

DataFrame.plot既是一个可调用的方法和一个名称空间属性为特定形式的策划方法DataFrame.plot。<一>

DataFrame.plot

的别名pyspark.pandas.plot.core.PandasOnSparkPlotAccessor

DataFrame.plot.area((x, y))

画一个堆放区域的。

DataFrame.plot.barh((x, y))

单杠的阴谋。

DataFrame.plot.bar((x, y))

竖线阴谋。

DataFrame.plot.hist((箱))

画一个直方图DataFrame的列。

DataFrame.plot.box(* * kwds)

做一个系列的箱线图列。

DataFrame.plot.line((x, y))

情节DataFrame /系列。

DataFrame.plot.pie(* * kwds)

生成饼图。

DataFrame.plot.scatter(x, y, * * kwds)

创建一个散点图不同大小和颜色标记点。

DataFrame.plot.density([bw_method,印第安纳州])

使用高斯内核生成核密度估计的阴谋。

DataFrame.hist((箱))

画一个直方图DataFrame的列。

DataFrame.boxplot(* * kwds)

做一个系列的箱线图列。

DataFrame.kde([bw_method,印第安纳州])

使用高斯内核生成核密度估计的阴谋。

Pandas-on-Spark特定

DataFrame.pandas_on_spark提供pandas-on-Spark特定功能,只存在于熊猫API火花。这些可以访问DataFrame.pandas_on_spark。<函数/属性>

DataFrame.pandas_on_spark.apply_batch(函数)

应用一个函数需要熊猫熊猫DataFrame DataFrame和输出。

DataFrame.pandas_on_spark.transform_batch(…)

变换块的功能需要熊猫熊猫DataFrame DataFrame和输出。