Korzystanie z biblioteki XGBoost w usłudze Azure Databricks
Ten artykuł zawiera przykłady trenowania modeli uczenia maszynowego przy użyciu biblioteki XGBoost w usłudze Azure Databricks. Środowisko Uruchomieniowe usługi Databricks dla uczenia maszynowego obejmuje biblioteki XGBoost dla języków Python i Scala. Modele XGBoost można trenować na poszczególnych maszynach lub w sposób rozproszony.
Trenowanie modeli XGBoost w jednym węźle
Modele można trenować przy użyciu pakietu języka Python xgboost
. Ten pakiet obsługuje tylko obciążenia z jednym węzłem. Aby wytrenować potok uczenia maszynowego PySpark i skorzystać z trenowania rozproszonego, zobacz Rozproszone trenowanie modeli XGBoost.
Notes biblioteki XGBoost języka Python
Rozproszone trenowanie modeli XGBoost
W przypadku rozproszonego trenowania modeli XGBoost usługa Databricks obejmuje narzędzia do szacowania PySpark na xgboost
podstawie pakietu. Usługa Databricks zawiera również pakiet xgboost-4j
Scala . Aby uzyskać szczegółowe informacje i przykładowe notesy, zobacz następujące artykuły:
- Rozproszone trenowanie modeli XGBoost przy użyciu biblioteki xgboost.spark (Środowisko Databricks Runtime 12.0 ML i nowsze)
- Rozproszone trenowanie modeli XGBoost przy użyciu biblioteki sparkdl.xgboost (przestarzałe począwszy od środowiska Databricks Runtime 12.0 ML)
- Rozproszone trenowanie modeli XGBoost przy użyciu języka Scala
Instalowanie biblioteki XGBoost w usłudze Azure Databricks
Jeśli musisz zainstalować bibliotekę XGBoost w środowisku Databricks Runtime lub użyć innej wersji niż wstępnie zainstalowana w środowisku Databricks Runtime ML, postępuj zgodnie z tymi instrukcjami.
Instalowanie biblioteki XGBoost w środowisku Databricks Runtime ML
Biblioteka XGBoost jest zawarta w środowisku Databricks Runtime ML. Tych bibliotek można używać w środowisku Databricks Runtime ML bez instalowania pakietów.
Informacje o wersji biblioteki XGBoost zainstalowanej w używanej wersji środowiska Databricks Runtime ML znajdują się w informacjach o wersji. Aby zainstalować inne wersje języka Python w środowisku Databricks Runtime ML, zainstaluj bibliotekę XGBoost jako bibliotekę Databricks PyPI. Określ ją w następujący sposób i zastąp ciąg <xgboost version>
odpowiednią wersją.
xgboost==<xgboost version>
Instalowanie biblioteki XGBoost w środowisku Databricks Runtime
Pakiet języka Python: Wykonaj następujące polecenie w komórce notesu:
%pip install xgboost
Aby zainstalować określoną wersję, zastąp odpowiednią <xgboost version>
wersją:
%pip install xgboost==<xgboost version>