在Databricks上使用XGBoost

在Databricks中学习如何使用XGBoost训练机器学习模型。Databricks Runtime for Machine Learning包括用于Python和Scala的XGBoost库。

警告

XGBoost 1.2.0及以下版本有一个错误这会导致共享Spark上下文如果XGBoost模型训练失败,将被杀死。恢复的唯一方法是重新启动集群。Databricks Runtime 7.5 ML及以下版本包含一个受此错误影响的XGBoost版本。要安装不同版本的XGBoost,请参见在Databricks上安装XGBoost

在单个节点上训练XGBoost模型

你可以使用Python训练模型xgboost包中。此包仅支持单节点工作负载。若要训练PySpark ML管道并利用分布式训练,请参阅XGBoost模型的分布式训练

XGBoost Python笔记本

在新标签页打开笔记本

XGBoost模型的分布式训练

对于XGBoost模型的分布式训练,Databricks包括基于的PySpark估计器xgboost包中。Databricks还包含Scala包xgboost-4j.有关详细信息和示例笔记本,请参见以下内容: