Verwenden von XGBoost auf Azure Databricks
Dieser Artikel enthält Beispiele für das Training von Machine Learning-Modellen mit XGBoost in Azure Databricks. Databricks Runtime für Machine Learning enthält XGBoost-Bibliotheken für Python und Scala. Sie können XGBoost-Modelle auf einzelnen Computern oder in einer verteilten Umgebung trainieren.
Trainieren von XGBoost-Modellen auf einem einzelnen Knoten
Sie können Modelle mithilfe des Python-Pakets xgboost
trainieren. Dieses Paket unterstützt nur Workloads mit nur einem Knoten. Informationen zum Trainieren einer PySpark-ML-Pipeline und zum Nutzen des verteilten Trainings finden Sie unter Verteiltes Training von XGBoost-Modellen.
XGBoost – Python-Notebook
Verteiltes Training von XGBoost-Modellen
Für das verteilte Training von XGBoost-Modellen enthält Databricks PySpark-Schätzer, die auf dem xgboost
-Paket basieren. Databricks enthält auch das Scala-Paket xgboost-4j
. Ausführliche Informationen und Beispielnotebooks finden Sie in den folgenden Artikeln:
- Verteiltes Training von XGBoost-Modellen mit xgboost.spark (Databricks Runtime 12.0 ML und höher)
- Verteiltes Training von XGBoost-Modellen mit sparkdl.xgboost (veraltet ab Databricks Runtime 12.0 ML)
- Verteiltes Training von XGBoost-Modellen mit Scala
Installieren von XGBoost auf Azure Databricks
Wenn Sie XGBoost auf Databricks Runtime installieren oder eine andere Version als die mit Databricks Runtime ML vorinstallierte Version verwenden müssen, befolgen Sie diese Anweisungen.
Installieren von XGBoost in Databricks Runtime ML
XGBoost ist in Databricks Runtime ML enthalten. Sie können diese Bibliotheken in Databricks Runtime ML verwenden, ohne Pakete zu installieren.
Informationen zu der XGBoost-Version, die in der von Ihnen verwendeten Databricks Runtime ML-Version installiert ist, finden Sie in den Versionshinweisen. Installieren Sie XGBoost als Databricks PyPI-Bibliothek, um andere Python-Versionen in Databricks Runtime ML zu installieren. Geben Sie diese wie folgt an, und ersetzen Sie <xgboost version>
durch die gewünschte Version.
xgboost==<xgboost version>
Installieren von XGBoost in Databricks Runtime
Python-Paket: Führen Sie den folgenden Befehl in einer Notebookzelle aus:
%pip install xgboost
Ersetzen Sie zum Installieren einer bestimmten Version <xgboost version>
durch die gewünschte Version:
%pip install xgboost==<xgboost version>
- Scala/Java packages:Installieren Sie diese als Databricks-Bibliothek mit dem Spark-Paketnamen
xgboost-linux64
.