Udostępnij za pośrednictwem


Databricks Runtime na potrzeby uczenia maszynowego

Środowisko Databricks Runtime dla uczenia maszynowego (Databricks Runtime ML) automatyzuje tworzenie klastra przy użyciu wstępnie utworzonej infrastruktury uczenia maszynowego i uczenia głębokiego, w tym najpopularniejszych bibliotek ML i DL. Aby uzyskać pełną listę bibliotek w każdej wersji środowiska Databricks Runtime ML, zobacz informacje o wersji.

Uwaga

Aby uzyskać dostęp do danych w wykazie aparatu Unity dla przepływów pracy uczenia maszynowego, tryb dostępu dla klastra musi być pojedynczym użytkownikiem (przypisanym). Udostępnione klastry nie są zgodne ze środowiskiem Databricks Runtime na potrzeby uczenia maszynowego. Ponadto środowisko Databricks Runtime ML nie jest obsługiwane w klastrach lub klastrach TableACLs z ustawioną wartością spark.databricks.pyspark.enableProcessIsolation config true.

Tworzenie klastra przy użyciu środowiska Databricks Runtime ML

Podczas tworzenia klastra wybierz wersję uczenia maszynowego środowiska Databricks Runtime z menu rozwijanego Wersja środowiska uruchomieniowego usługi Databricks. Dostępne są zarówno środowiska uruchomieniowe uczenia maszynowego z obsługą procesora CPU, jak i procesora GPU.

Wybieranie usługi Databricks Runtime ML

Jeśli wybierzesz klaster z menu rozwijanego w notesie, wersja środowiska Uruchomieniowego usługi Databricks pojawi się po prawej stronie nazwy klastra:

Wyświetlanie wersji uczenia maszynowego środowiska Databricks Runtime

W przypadku wybrania środowiska uruchomieniowego uczenia maszynowego z obsługą procesora GPU zostanie wyświetlony monit o wybranie zgodnego typu sterownika i typu procesu roboczego. Niezgodne typy wystąpień są wyszarywane w menu rozwijanym. Typy wystąpień z obsługą procesora GPU są wyświetlane na liście w ramach etykiety przyspieszonej procesora GPU. Aby uzyskać informacje na temat tworzenia klastrów gpu usługi Azure Databricks, zobacz Obliczenia z obsługą procesora GPU. Środowisko uruchomieniowe Databricks Runtime ML obejmuje sterowniki sprzętowe procesora GPU i biblioteki firmy NVIDIA, takie jak CUDA.

Photon i Databricks Runtime ML

Podczas tworzenia klastra procesora CPU z uruchomionym środowiskiem Databricks Runtime 15.2 ML lub nowszym możesz włączyć funkcję Photon. Aplikacja Photon zwiększa wydajność aplikacji przy użyciu platformy Spark SQL, ramek danych Platformy Spark, inżynierii cech, elementów GraphFrames i xgboost4j. Nie oczekuje się poprawy wydajności aplikacji przy użyciu rdD platformy Spark, funkcji UDF biblioteki Pandas i języków innych niż JVM, takich jak Python. W związku z tym pakiety języka Python, takie jak XGBoost, PyTorch i TensorFlow, nie będą widzieć poprawy w narzędziu Photon.

Interfejsy API RDD platformy Spark i biblioteki MLlib platformy Spark mają ograniczoną zgodność z aplikacją Photon. Podczas przetwarzania dużych zestawów danych przy użyciu rdD platformy Spark lub biblioteki MLlib platformy Spark mogą wystąpić problemy z pamięcią platformy Spark. Zobacz Problemy z pamięcią platformy Spark.

Biblioteki zawarte w środowisku Databricks Runtime ML

Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego. Biblioteki są aktualizowane wraz z każdą wersją w celu uwzględnienia nowych funkcji i poprawek.

Usługa Databricks wyznaczyła podzbiór obsługiwanych bibliotek jako bibliotek najwyższego poziomu. W przypadku tych bibliotek usługa Databricks zapewnia szybszy cykl aktualizacji, aktualizując do najnowszych wersji pakietów przy użyciu każdej wersji środowiska uruchomieniowego (konflikty zależności). Usługa Databricks oferuje również zaawansowaną obsługę, testowanie i optymalizacje osadzone dla bibliotek najwyższego poziomu.

Aby uzyskać pełną listę najwyższej warstwy i innych udostępnionych bibliotek, zobacz informacje o wersji środowiska Databricks Runtime ML.

Możesz zainstalować dodatkowe biblioteki, aby utworzyć środowisko niestandardowe dla notesu lub klastra.