XGBoost gebruiken in Azure Databricks
Dit artikel bevat voorbeelden van het trainen van machine learning-modellen met behulp van XGBoost in Azure Databricks. Databricks Runtime voor Machine Learning bevat XGBoost-bibliotheken voor zowel Python als Scala. U kunt XGBoost-modellen trainen op een afzonderlijke machine of op gedistribueerde wijze.
XGBoost-modellen trainen op één knooppunt
U kunt modellen trainen met behulp van het Python-pakket xgboost
. Dit pakket ondersteunt alleen workloads met één knooppunt. Zie Gedistribueerde training van XGBoost-modellen om een PySpark ML-pijplijn te trainen en te profiteren van gedistribueerde training.
Python-notebook voor XGBoost
Gedistribueerde training van XGBoost-modellen
Voor gedistribueerde training van XGBoost-modellen bevat Databricks PySpark-schattingen op basis van het xgboost
pakket. Databricks bevat ook het Scala-pakket xgboost-4j
. Zie het volgende voor meer informatie en voorbeeldnotitieblokken:
- Gedistribueerde training van XGBoost-modellen met behulp van xgboost.spark (Databricks Runtime 12.0 ML en hoger)
- Gedistribueerde training van XGBoost-modellen met sparkdl.xgboost (afgeschaft vanaf Databricks Runtime 12.0 ML)
- Gedistribueerde training van XGBoost-modellen met behulp van Scala
XGBoost installeren in Azure Databricks
Als u XGBoost wilt installeren in Databricks Runtime of een andere versie moet gebruiken dan de versie die vooraf is geïnstalleerd met Databricks Runtime ML, volgt u deze instructies.
XGBoost installeren op Databricks Runtime ML
XGBoost is opgenomen in Databricks Runtime ML. U kunt deze bibliotheken gebruiken in Databricks Runtime ML zonder pakketten te installeren.
Raadpleeg de opmerkingen bij de release om te achterhalen welke versie van XGBoost is geïnstalleerd in de Databricks Runtime ML-versie die u gebruikt. Installeer XGBoost als Databricks PyPI-bibliotheek als u andere Python-versies in Databricks Runtime ML wilt installeren. Geef deze als volgt op en vervang <xgboost version>
door de gewenste versie.
xgboost==<xgboost version>
XGBoost installeren op Databricks Runtime
Python-pakket: voer de volgende opdracht uit in een notebookcel:
%pip install xgboost
Als u een specifieke versie wilt installeren, vervangt u deze door <xgboost version>
de gewenste versie:
%pip install xgboost==<xgboost version>
- Scala-/Java-pakketten: Installeren als een Databricks-bibliotheek met de naam
xgboost-linux64
van het Spark-pakket.