Använda XGBoost på Azure Databricks
Den här artikeln innehåller exempel på hur du tränar maskininlärningsmodeller med XGBoost i Azure Databricks. Databricks Runtime for Machine Learning innehåller XGBoost-bibliotek för både Python och Scala. Du kan träna XGBoost-modeller på en enskild dator eller på ett distribuerat sätt.
Träna XGBoost-modeller på en enda nod
Du kan träna modeller med hjälp av Python-paketet xgboost
. Det här paketet stöder endast arbetsbelastningar med en enda nod. Information om hur du tränar en PySpark ML-pipeline och drar nytta av distribuerad träning finns i Distribuerad träning av XGBoost-modeller.
Python-notebook-fil för XGBoost
Distribuerad träning av XGBoost-modeller
För distribuerad träning av XGBoost-modeller innehåller Databricks PySpark-skattningar baserat på xgboost
paketet. Databricks innehåller även Scala-paketet xgboost-4j
. Mer information och exempel på notebook-filer finns i följande:
- Distribuerad träning av XGBoost-modeller med xgboost.spark (Databricks Runtime 12.0 ML och senare)
- Distribuerad träning av XGBoost-modeller med sparkdl.xgboost (inaktuell från och med Databricks Runtime 12.0 ML)
- Distribuerad träning av XGBoost-modeller med Scala
Installera XGBoost på Azure Databricks
Om du behöver installera XGBoost på Databricks Runtime eller använda en annan version än den som är förinstallerad med Databricks Runtime ML följer du dessa instruktioner.
Installera XGBoost på Databricks Runtime ML
XGBoost ingår i Databricks Runtime ML. Du kan använda de här biblioteken i Databricks Runtime ML utan att installera några paket.
Läs Viktig information för den version av XGBoost som är installerad i den Databricks Runtime ML-version som du använder. Om du vill installera andra Python-versioner i Databricks Runtime ML, installerar du XGBoost som ett Databricks PyPI-bibliotek. Ange det som följande och ersätt <xgboost version>
med önskad version.
xgboost==<xgboost version>
Installera XGBoost på Databricks Runtime
Python-paket: Kör följande kommando i en notebook-cell:
%pip install xgboost
Om du vill installera en viss version ersätter du <xgboost version>
med önskad version:
%pip install xgboost==<xgboost version>
- Scala/Java-paket: Installera som ett Databricks-bibliotek med Spark-paketnamnet
xgboost-linux64
.