Uso de XGBoost en Azure Databricks
En este artículo se proporcionan ejemplos de entrenamiento de modelos de aprendizaje automático mediante XGBoost en Azure Databricks. Databricks Runtime para Machine Learning incluye bibliotecas XGBoost para Python y Scala. Puede entrenar modelos de XGBoost en un equipo individual o de manera distribuida.
Entrenamiento de modelos XGBoost en un solo nodo
Se pueden entrenar modelos con el xgboost
paquete de Python. Este paquete solo admite cargas de trabajo de nodo único. Para entrenar una canalización de ML de PySpark y aprovechar el entrenamiento distribuido, consulte Entrenamiento distribuido de modelos XGBoost.
Cuaderno de Python para XGBoost
Entrenamiento distribuido de modelos XGBoost
Para el entrenamiento distribuido de modelos XGBoost, Databricks incluye estimadores de PySpark basados en el paquete xgboost
. Databricks también incluye el paquete xgboost-4j
de Scala. Para más información y ejemplos de cuadernos, consulte lo siguiente:
- Entrenamiento distribuido de modelos XGBoost mediante xgboost.spark (Databricks Runtime 12.0 ML y versiones posteriores)
- Entrenamiento distribuido de modelos XGBoost mediante sparkdl.xgboost (en desuso a partir de Databricks Runtime 12.0 ML)
- Entrenamiento distribuido de modelos XGBoost mediante Scala
Instalación de XGBoost en Azure Databricks
Si necesita instalar XGBoost en Databricks Runtime o usar una versión diferente de la preinstalada con Databricks Runtime ML, siga estas instrucciones.
Instalación de XGBoost en Databricks Runtime ML
XGBoost está incluido en Databricks Runtime ML. Puede usar estas bibliotecas en Databricks Runtime ML sin necesidad de instalar ningún paquete.
Para la versión de XGBoost instalada en la versión Databricks Runtime ML que está usando, consulte las notas de la versión. Para instalar otras versiones de Python en Databricks Runtime ML, instale XGBoost como una biblioteca PyPI de Databricks. Especifíquelo como se muestra a continuación y reemplace <xgboost version>
por la versión deseada.
xgboost==<xgboost version>
Instalación de XGBoost en Databricks Runtime
Paquete de Python: ejecute el siguiente comando en una celda del cuaderno:
%pip install xgboost
Para instalar una versión específica, reemplace <xgboost version>
por la versión deseada:
%pip install xgboost==<xgboost version>
- Paquetes Scala/Java: instálelos como una biblioteca de Databricks con el nombre de paquete de Spark
xgboost-linux64
.