Usare XGBoost in Azure Databricks
Questo articolo fornisce esempi di training di modelli di Machine Learning con XGBoost in Azure Databricks. Databricks Runtime per Machine Learning include librerie XGBoost sia per Python che per Scala. È possibile eseguire il training di modelli XGBoost su singoli computer o in modalità distribuita.
Eseguire il training di modelli XGBoost in un singolo nodo
È possibile eseguire il training dei modelli usando il pacchetto Python xgboost
. Questo pacchetto supporta solo carichi di lavoro a nodo singolo. Per eseguire il training di una pipeline di ML PySpark e sfruttare i vantaggi del training distribuito, vedere Training distribuito dei modelli XGBoost.
Notebook Python XGBoost
Prendi il notebook
Training distribuito dei modelli XGBoost
Per il training distribuito dei modelli XGBoost, Databricks include gli estimatori PySpark basati sul pacchetto xgboost
. Databricks include anche il pacchetto Scala xgboost-4j
. Per informazioni dettagliate e notebook di esempio, vedere quanto segue:
- Training distribuito dei modelli XGBoost con xgboost.spark (Databricks Runtime 12.0 ML e versioni successive)
- Training distribuito dei modelli XGBoost con sparkdl.xgboost (deprecato a partire da Databricks Runtime 12.0 ML)
- Training distribuito dei modelli XGBoost con Scala
Installare XGBoost in Azure Databricks
Se è necessario installare XGBoost in Databricks Runtime o usare una versione diversa da quella preinstallata con Databricks Runtime ML, seguire le seguenti istruzioni.
Installare XGBoost in Databricks Runtime ML
XGBoost è incluso in Databricks Runtime ML. È possibile usare queste librerie in Databricks Runtime ML senza installare alcun pacchetto.
Per la versione di XGBoost installata nella versione di Databricks Runtime ML in uso, vedere le note sulla versione. Per installare altre versioni Python in Databricks Runtime ML, installare XGBoost come libreria PyPI di Databricks. Specificarla come indicato di seguito e sostituire <xgboost version>
con la versione desiderata.
xgboost==<xgboost version>
Installare XGBoost in Databricks Runtime
Pacchetto Python: eseguire il comando seguente in una cella del notebook:
%pip install xgboost
Per installare una versione specifica, sostituire <xgboost version>
con la versione desiderata:
%pip install xgboost==<xgboost version>
-
Pacchetti Scala/Java: eseguire l'installazione come libreria Databricks con il nome del pacchetto Spark
xgboost-linux64
.