MLlib (DataFrame-based)

管道的api

变压器()

抽象类的变压器变换一个数据集到另一个。

UnaryTransformer()

抽象类为《变形金刚》,一个输入栏,应用转换和输出结果作为一个新列。

估计量()

抽象类的估计数据模型。

模型()

抽象类所拟合的模型估计。

预测()

预测估计任务(回归和分类)。

PredictionModel()

预测模型的任务(回归和分类)。

管道(*(阶段))

一个简单的管道,它充当一个估计量。

PipelineModel(阶段)

代表一个编译管道变形金刚和拟合模型。

参数

参数(父、名称、doc (typeConverter])

与独立参数文档。

参数个数()

组件的参数。

TypeConverters

工厂方法常见的类型转换函数Param.typeConverter

功能

Binarizer(*(阈值、inputCol…))

Binarize一列连续给定的阈值特性。

BucketedRandomProjectionLSH(* (inputCol,…))

激光冲徊化类欧氏距离度量。

BucketedRandomProjectionLSHModel([java_model])

模型拟合的BucketedRandomProjectionLSH,多维随机向量存储。

Bucketizer(*(分裂,inputCol、outputCol…))

一列连续特性映射到列桶的特性。

ChiSqSelector(* (numTopFeatures,…))

卡方特征选择,选择分类特征用于预测分类标签。

ChiSqSelectorModel([java_model])

模型拟合的ChiSqSelector

CountVectorizer(* [,minDF minTF maxDF,…))

从文档集合中提取一个词汇表,生成一个CountVectorizerModel

CountVectorizerModel([java_model])

模型拟合的CountVectorizer

DCT(*(逆,inputCol outputCol])

变压器的特性,以一个真正的一维离散余弦变换向量。

ElementwiseProduct(* (scalingVec,…))

产品(即输出阿达玛。element-wise产品)提供的每个输入向量与向量“重量”。

FeatureHasher(* [,inputCols numFeatures…))

功能散列项目一组分类或指定的数值特征的特征向量维度(通常远远小于原始特征空间的)。

HashingTF(* [numFeatures,二进制,…)

一系列术语映射到他们的词频率使用哈希的诀窍。

以色列国防军(* [,inputCol minDocFreq outputCol])

计算逆文档频率(IDF)给定文档的集合。

IDFModel([java_model])

模型拟合的以色列国防军

输入(*[、战略、missingValue…))

归责估计完成缺失值,使用均值、中值或模式的缺失值的列。

ImputerModel([java_model])

模型拟合的输入

IndexToString(* [inputCol outputCol,标签])

一个pyspark.ml.base.Transformer映射的指数回到一个新列一列对应的字符串值。

交互(* [、inputCols outputCol])

实现了功能交互变换。

MaxAbsScaler(* [、inputCol outputCol])

重新调节每个特性单独范围[1]通过最大的最大绝对值除以每个特性。

MaxAbsScalerModel([java_model])

模型拟合的MaxAbsScaler

MinHashLSH(* (inputCol outputCol,种子,…))

激光冲徊化类Jaccard距离。

MinHashLSHModel([java_model])

模型由MinHashLSH,存储在多个哈希函数。

MinMaxScaler(*[,最小,最大、inputCol outputCol])

重新调节每个特性单独一个共同的范围(最小,最大)线性使用列的汇总统计,也称为min-max标准化或重新调节。

MinMaxScalerModel([java_model])

模型拟合的MinMaxScaler

NGram(* [n inputCol outputCol])

变压器的特性,将输入的字符串数组转换成一个字格数组。

标准化者(* [p inputCol outputCol])

标准化一个向量单位使用给定p-norm规范。

OneHotEncoder(* [,outputCols inputCols…))

一个地图的一个炎热的编码器类别索引的列的列二进制向量,每行最多一个一个值,指示输入类别索引。

OneHotEncoderModel([java_model])

模型拟合的OneHotEncoder

主成分分析(* [k inputCol outputCol])

PCA火车模型项目的低维空间向量k主要组件。

PCAModel([java_model])

模型拟合的主成分分析

PolynomialExpansion(*[学位,inputCol…))

执行功能在一个多项式空间的扩张。

QuantileDiscretizer(* (numBuckets,…))

QuantileDiscretizer获取一列一列连续特性和输出与被分类特性。

RobustScaler(*(低,上部,…)

RobustScaler删除中间值和尺度根据分位数的数据范围。

RobustScalerModel([java_model])

模型拟合的RobustScaler

RegexTokenizer(* (minTokenLength,差距,…))

一个基于正则表达式的编译器,提取标记通过使用提供的正则表达式模式(在Java方言)将文本(默认)或多次匹配正则表达式(如果差距是假的)。

RFormula(*(公式、featuresCol…))

实现所需的变换拟合数据集对R模型公式。

RFormulaModel([java_model])

模型拟合的RFormula

SQLTransformer(*(、语句))

实现定义的SQL语句的转换。

StandardScaler(* [,withStd withMean…))

标准化特性通过删除单元方差均值和扩展使用列汇总统计的样本训练集。

StandardScalerModel([java_model])

模型拟合的StandardScaler

StopWordsRemover(* [,outputCol inputCol…))

变压器的特性,过滤掉阻止语言输入。

StringIndexer(* [,outputCol inputCol…))

一个标签索引器映射一个字符串列的索引标签的ML列标签。

StringIndexerModel([java_model])

模型拟合的StringIndexer

分词器(* [、inputCol outputCol])

一个编译器,将输入字符串转换为小写,然后分裂的空白。

UnivariateFeatureSelector(* (featuresCol,…))

功能选择器对标签。基于单变量统计测试

UnivariateFeatureSelectorModel([java_model])

模型拟合的UnivariateFeatureSelector

VarianceThresholdSelector(* (featuresCol,…))

功能选择器,删除所有低温度差的特性。

VarianceThresholdSelectorModel([java_model])

模型拟合的VarianceThresholdSelector

VectorAssembler(* [,outputCol inputCols…))

变压器的特性,合并多个列成一个向量列。

VectorIndexer(* [,inputCol maxCategories…))

类索引分类特征列的数据集向量

VectorIndexerModel([java_model])

模型拟合的VectorIndexer

VectorSizeHint(* [inputCol,大小,…))

变压器的特性,将大小信息添加到元数据向量的列。

VectorSlicer(* [,outputCol inputCol…))

这门课需要一个特征向量和输出向量的一个新特性子数组的原始特性。

Word2Vec(* [,minCount vectorSize…))

Word2Vec火车的模型矢量地图(字符串),即

Word2VecModel([java_model])

模型拟合的Word2Vec

分类

LinearSVC(* [,labelCol featuresCol…))

这种二元分类器使用OWLQN优化器优化铰链损失。

LinearSVCModel([java_model])

由LinearSVC模型拟合。

LinearSVCSummary([java_obj])

抽象LinearSVC结果对于一个给定的模型。

LinearSVCTrainingSummary([java_obj])

抽象LinearSVC培训结果。

LogisticRegression(* (featuresCol,…))

逻辑回归。

LogisticRegressionModel([java_model])

由LogisticRegression模型拟合。

LogisticRegressionSummary([java_obj])

对于一个给定的模型抽象为逻辑回归结果。

LogisticRegressionTrainingSummary([java_obj])

抽象多项逻辑回归训练的结果。

BinaryLogisticRegressionSummary([java_obj])

二元逻辑回归结果对于一个给定的模型。

BinaryLogisticRegressionTrainingSummary([…])

二元逻辑回归训练结果对于一个给定的模型。

DecisionTreeClassifier(* (featuresCol,…))

决策树学习算法的分类。它同时支持二进制和多类标签,以及连续和分类功能。

DecisionTreeClassificationModel([java_model])

由DecisionTreeClassifier模型拟合。

GBTClassifier(* [,labelCol featuresCol…))

Gradient-Boosted树(GBTs)学习算法的分类。它支持二进制标签,以及连续和分类功能。

GBTClassificationModel([java_model])

由GBTClassifier模型拟合。

RandomForestClassifier(* (featuresCol,…))

随机森林学习算法的分类。它同时支持二进制和多类标签,以及连续和分类功能。

RandomForestClassificationModel([java_model])

由RandomForestClassifier模型拟合。

RandomForestClassificationSummary([java_obj])

抽象RandomForestClassification结果对于一个给定的模型。

RandomForestClassificationTrainingSummary([…])

抽象RandomForestClassificationTraining培训结果。

BinaryRandomForestClassificationSummary([…])

BinaryRandomForestClassification结果对于一个给定的模型。

BinaryRandomForestClassificationTrainingSummary([…])

BinaryRandomForestClassification培训结果对于一个给定的模型。

NaiveBayes(* [,labelCol featuresCol…))

朴素贝叶斯分类器。

NaiveBayesModel([java_model])

由NaiveBayes模型拟合。

MultilayerPerceptronClassifier(* […])

分类器训练基于多层感知器。

MultilayerPerceptronClassificationModel([…])

由MultilayerPerceptronClassifier模型拟合。

MultilayerPerceptronClassificationSummary([…])

抽象MultilayerPerceptronClassifier结果对于一个给定的模型。

MultilayerPerceptronClassificationTrainingSummary([…])

抽象MultilayerPerceptronClassifier培训结果。

OneVsRest(* [,labelCol featuresCol…))

减少多级分类二进制分类。

OneVsRestModel(模型)

由OneVsRest模型拟合。

FMClassifier(* [,labelCol featuresCol…))

分解机器学习算法的分类。

FMClassificationModel([java_model])

模型拟合的FMClassifier

FMClassificationSummary([java_obj])

抽象FMClassifier结果对于一个给定的模型。

FMClassificationTrainingSummary([java_obj])

抽象FMClassifier培训结果。

聚类

BisectingKMeans(* (featuresCol,…))

平分的k - means算法在纸上“比较文档聚类技术”施泰因巴赫通过,Karypis,库马尔,修改以适应火花。

BisectingKMeansModel([java_model])

由BisectingKMeans模型拟合。

BisectingKMeansSummary([java_obj])

平分KMeans聚类结果对于一个给定的模型。

KMeans(* (featuresCol predictionCol, k,…))

与这样的k - means + + k - means聚类初始化模式(k - means | | Bahmani等算法)。

KMeansModel([java_model])

由KMeans模型拟合。

KMeansSummary([java_obj])

KMeans的总结。

GaussianMixture(* (featuresCol,…))

GaussianMixture集群。

GaussianMixtureModel([java_model])

由GaussianMixture模型拟合。

GaussianMixtureSummary([java_obj])

高斯混合聚类结果对于一个给定的模型。

乔治。(* (featuresCol麦克斯特,种子,…))

潜在狄利克雷分配(LDA),主题为文本文档设计模型。

LDAModel([java_model])

潜在狄利克雷分配(LDA)模型。

LocalLDAModel([java_model])

本地(运作)模型拟合乔治。

DistributedLDAModel([java_model])

分布式模型拟合的乔治。

PowerIterationClustering(* [k麦克斯特,…)

迭代聚类(图片),一个可伸缩的图形开发的聚类算法林和科恩.从抽象:图片发现数据的低维嵌入规范化使用截断电力迭代成对相似矩阵的数据. .

功能

array_to_vector(col)

将数组的列数值类型转换成一个列pyspark.ml.linalg。DenseVector实例

vector_to_array(col [dtype])

MLlib稀疏/密度向量的列转换成一个列的密集阵列。

向量和矩阵

向量

DenseVector(ar)

密集的向量代表一个值数组。

SparseVector(大小、* args)

一个简单的稀疏向量类MLlib传递数据。

向量

工厂方法来处理向量。

矩阵(numRows numCols [, isTransposed])

DenseMatrix(numCols numRows值[…])

列为主的密度矩阵。

SparseMatrix(numCols numRows colPtrs…)

稀疏矩阵存储在CSC格式。

矩阵

建议

肌萎缩性侧索硬化症(*[、等级、麦克斯特、regParam…))

交替最小二乘(ALS)矩阵分解。

ALSModel([java_model])

模型拟合了肌萎缩性侧索硬化症。

回归

AFTSurvivalRegression(* (featuresCol,…))

加速失效时间模型(尾部)生存回归

AFTSurvivalRegressionModel([java_model])

模型拟合的AFTSurvivalRegression

DecisionTreeRegressor(* (featuresCol,…))

决策树为回归学习算法。它同时支持连续和分类功能。

DecisionTreeRegressionModel([java_model])

模型拟合的DecisionTreeRegressor

GBTRegressor(* [,labelCol featuresCol…))

Gradient-Boosted树(GBTs)为回归学习算法。它同时支持连续和分类功能。

GBTRegressionModel([java_model])

模型拟合的GBTRegressor

GeneralizedLinearRegression(* (labelCol,…))

广义线性回归。

GeneralizedLinearRegressionModel([java_model])

模型拟合的GeneralizedLinearRegression

GeneralizedLinearRegressionSummary([java_obj])

广义线性回归结果评估数据集。

GeneralizedLinearRegressionTrainingSummary([…])

广义线性回归训练的结果。

IsotonicRegression(* (featuresCol,…))

目前使用并行池侵犯相邻的算法实现。

IsotonicRegressionModel([java_model])

模型拟合的IsotonicRegression

LinearRegression(* [,labelCol featuresCol…))

线性回归。

LinearRegressionModel([java_model])

模型拟合的LinearRegression

LinearRegressionSummary([java_obj])

线性回归结果评估数据集。

LinearRegressionTrainingSummary([java_obj])

线性回归训练的结果。

RandomForestRegressor(* (featuresCol,…))

随机森林为回归学习算法。它同时支持连续和分类功能。

RandomForestRegressionModel([java_model])

模型拟合的RandomForestRegressor

FMRegressor(* [,labelCol featuresCol…))

分解机器学习算法的回归。

FMRegressionModel([java_model])

模型拟合的FMRegressor

统计数据

ChiSquareTest

进行皮尔逊的独立测试每一个特性对标签。

相关

计算的输入数据集的相关矩阵向量使用指定的方法。

KolmogorovSmirnovTest

进行双边柯尔莫哥洛夫斯米尔诺夫(KS)测试数据从一个连续分布采样。

MultivariateGaussian(意思是,浸)

代表一个元组(意思是,x)

史书

矢量化统计工具MLlib向量。

SummaryBuilder(jSummaryBuilder)

生成器对象提供关于一个给定的列的汇总统计。

调优

ParamGridBuilder()

构建器参数网格中使用网格搜索模型的选择。

CrossValidator(*(估计量,…))

K-fold交叉验证执行模型选择随机数据集分割到一组重叠分区折叠作为单独的训练和测试数据集如k = 3折,K-fold交叉验证将生成3(培训、测试)数据集对,每个使用培训和1/3 2/3的数据进行测试。

CrossValidatorModel(bestModel [avgMetrics,…)

CrossValidatorModel包含最高的模型平均跨折交叉验证指标,并使用该模型将输入数据。

TrainValidationSplit(*(估计量,…))

验证hyper-parameter调优。

TrainValidationSplitModel(bestModel […])

从火车模型验证。

评价

评估者()

基类评估计算指标的预测。

BinaryClassificationEvaluator(* […])

二进制分类评估者,预计rawPrediction输入列,列标签和一个可选的重量。

RegressionEvaluator(* (predictionCol,…))

回归评估者,预计预测输入列,列标签和一个可选的重量。

MulticlassClassificationEvaluator(* […])

多类分类的评估者,预计输入列:预测、标签、重量(可选)和probabilityCol logLoss(只)。

MultilabelClassificationEvaluator(* […])

Multilabel分类评估者,预计两个输入列:预测和标签。

ClusteringEvaluator(* (predictionCol,…))

聚类结果的评估者,预计两个输入列:预测和特性。

RankingEvaluator(* (predictionCol,…))

排名评估者,预计两个输入列:预测和标签。

频繁模式挖掘

FPGrowth(* [,minConfidence minSupport…))

一个平行FP-growth算法挖掘频繁项集。

FPGrowthModel([java_model])

由FPGrowth模型拟合。

PrefixSpan(* (minSupport,…))

一个平行PrefixSpan算法挖掘频繁序列模式。

图像

ImageSchema

内部类pyspark.ml.image.ImageSchema属性。

_ImageSchema()

内部类pyspark.ml.image.ImageSchema属性。

公用事业公司

BaseReadWrite()

基类MLWriter MLReader。

DefaultParamsReadable

制作简单的辅助特征参数个数类型可读。

DefaultParamsReader(cls)

专业化的MLReader参数个数类型

DefaultParamsWritable

制作简单的辅助特征参数个数类型可写的。

DefaultParamsWriter(实例)

专业化的MLWriter参数个数类型

GeneralMLWriter()

实用工具类,它可以节省毫升实例在不同的格式。

HasTrainingSummary

基类模型,提供培训总结。

可识别的()

对象与一个惟一的ID。

MLReadable

Mixin的实例提供MLReader

MLReader()

实用工具类,它可以加载毫升实例。

MLWritable

Mixin毫升实例提供MLWriter

MLWriter()

实用工具类,它可以节省毫升实例。