Usar XGBoost no Azure Databricks
Este artigo fornece exemplos de modelos de aprendizado de máquina de treinamento usando XGBoost no Azure Databricks. O Databricks Runtime for Machine Learning inclui bibliotecas XGBoost para Python e Scala. Você pode treinar modelos XGBoost em uma máquina individual ou de forma distribuída.
Treinar modelos XGBoost em um único nó
Você pode treinar modelos usando o pacote Python xgboost
. Este pacote suporta apenas cargas de trabalho de nó único. Para treinar um pipeline de ML do PySpark e aproveitar o treinamento distribuído, consulte Treinamento distribuído de modelos XGBoost.
Bloco de notas de Python para XGBoost
Treinamento distribuído de modelos XGBoost
Para treinamento distribuído de modelos XGBoost, o xgboost
Databricks inclui estimadores PySpark baseados no pacote. Databricks também inclui o pacote Scala xgboost-4j
. Para obter detalhes e exemplos de blocos de anotações, consulte o seguinte:
- Treinamento distribuído de modelos XGBoost usando xgboost.spark (Databricks Runtime 12.0 ML e superior)
- Treinamento distribuído de modelos XGBoost usando sparkdl.xgboost (preterido a partir do Databricks Runtime 12.0 ML)
- Treinamento distribuído de modelos XGBoost usando Scala
Instalar o XGBoost no Azure Databricks
Se você precisar instalar o XGBoost no Databricks Runtime ou usar uma versão diferente da pré-instalada com o Databricks Runtime ML, siga estas instruções.
Instalar o XGBoost no Databricks Runtime ML
O XGBoost está incluído no Databricks Runtime ML. Pode utilizar estas bibliotecas no Databricks Runtime ML sem instalar nenhum pacote.
Relativamente à versão do XGBoost instalado na versão do Databricks Runtime ML que está a utilizar, veja as notas de versão. Para instalar outras versões de Python no Databricks Runtime ML, instale o XGBoost como uma biblioteca PyPI do Databricks. Especifique-a da seguinte forma e substitua <xgboost version>
pela versão pretendida.
xgboost==<xgboost version>
Instalar o XGBoost no Databricks Runtime
Pacote Python: execute o seguinte comando em uma célula do bloco de anotações:
%pip install xgboost
Para instalar uma versão específica, substitua <xgboost version>
pela versão desejada:
%pip install xgboost==<xgboost version>
- Pacotes Scala/Java: Instale como uma biblioteca Databricks com o nome
xgboost-linux64
do pacote Spark.