在 Azure Databricks 上使用 XGBoost
本文章提供在 Azure Databricks 中使用 XGBoost 訓練機器學習模型的範例。 適用於機器學習的 Databricks Runtime 包括適用於 Python 和 Scala 的 XGBoost 程式庫。 您可以在個別機器上或以分散式方式訓練 XGBoost 模型。
在單一節點上訓練 XGBoost 模型
您可以使用 Python xgboost
套件來訓練模型。 此套件僅支援單一節點工作負載。 若要訓練 PySpark ML 管線並利用分散式訓練,請參閱 XGBoost 模型的分散式訓練 (英文)。
XGBoost Python 筆記本
XGBoost 模型的分散式訓練
針對 XGBoost 模型的分散式訓練,Databricks 會根據 xgboost
套件來包括 PySpark 估算器。 Databricks 也包含 Scala 套件 xgboost-4j
。 如需詳細資料和範例筆記本,請參閱下列內容:
- 使用 xgboost.spark 的 XGBoost 模型分散式訓練 (Databricks Runtime 12.0 ML 和更新版本)
- 使用 sparkdl.xgboost 的 XGBoost 模型分散式訓練 (自 Databricks Runtime 12.0 ML 起遭取代)
- 使用 Scala 之 XGBoost 模型的分散式訓練
在 Azure Databricks 上安裝 XGBoost
如果您需要在 Databricks Runtime 上安裝 XGBoost,或使用與 Databricks Runtime ML 預先安裝的版本不同,請遵循這些指示。
在 Databricks Runtime ML 上安裝 XGBoost
XGBoost 包括在 Databricks Runtime ML 中。 您可以在不安裝任何套件的情況下,在 Databricks Runtime ML 中使用這些程式庫。
若要了解您使用之 Databricks Runtime ML 版本中安裝的 XGBoost 版本,請參閱版本資訊 (英文)。 若要在 Databricks Runtime ML 中安裝其他 Python 版本,請將 XGBoost 安裝為 Databricks PyPI 程式庫。 依照下列方式指定它,並將 <xgboost version>
取代為所需的版本。
xgboost==<xgboost version>
在 Databricks Runtime 上安裝 XGBoost
Python 套件:在筆記本儲存格中執行下列命令:
%pip install xgboost
若要安裝特定版本,請將 <xgboost version>
取代為所需的版本:
%pip install xgboost==<xgboost version>