在Databricks上使用XGBoost
在Databricks中学习如何使用XGBoost训练机器学习模型。Databricks Runtime for Machine Learning包括用于Python和Scala的XGBoost库。
警告
XGBoost 1.2.0及以下版本有一个错误这会导致共享Spark上下文如果XGBoost模型训练失败,将被杀死。恢复的唯一方法是重新启动集群。Databricks Runtime 7.5 ML及以下版本包含一个受此错误影响的XGBoost版本。要安装不同版本的XGBoost,请参见在Databricks上安装XGBoost.
在单个节点上训练XGBoost模型
你可以使用Python训练模型xgboost
包中。此包仅支持单节点工作负载。若要训练PySpark ML管道并利用分布式训练,请参阅XGBoost模型的分布式训练.
XGBoost模型的分布式训练
对于XGBoost模型的分布式训练,Databricks包括基于的PySpark估计器xgboost
包中。Databricks还包含Scala包xgboost-4j
.有关详细信息和示例笔记本,请参见以下内容:
使用XGBoost .spark对XGBoost模型进行分布式训练(Databricks Runtime 12.0 ML及以上)
使用sparkdl.xgboost对XGBoost模型进行分布式训练(从Databricks Runtime 12.0 ML开始已弃用)