安装一个Apache SparkML模型抛出错误

学习如何解决错误抛出砖当SparkML模型拟合或管道。

写的亚当Pavlacka

去年发表在:2022年5月16日

问题

砖抛出一个错误当SparkML模型拟合或管道:

org.apache.spark。SparkException:工作阶段失败而终止:任务0阶段162.0失败了4次,最近的失败:在舞台上失去了任务0.3 162.0 (TID 168、10.205.250.130执行人1):org.apache.spark。SparkException:未能执行用户定义函数(anonfun 9:美元(字符串)=比;双)

导致

通常,一个错误当SparkML模型拟合或管道问题的训练数据的结果。

解决方案

检查下面的问题:

  1. 识别和解决空值的数据集。火花需要知道如何处理缺失值的数据集。
    • 丢弃行与dropna缺失值()。
    • 转嫁等价值0或列的平均值。这个解决方案取决于数据集是有意义的。
  2. 确保所有训练数据是适当地转换为数字格式。火花需要知道如何处理分类和字符串变量。各种各样的特征变形金刚可用地址数据具体情况。
  3. 检查共线性。高度相关,甚至重复特性可能导致模型拟合的问题。这发生在极少数情况下,但你应该确保排除这一可能性。
这篇文章有用吗?