Databricks Runtime för maskininlärning
Den här artikeln beskriver Databricks Runtime for Machine Learning och ger vägledning för hur du skapar ett kluster som använder det.
Vad är Databricks Runtime för Machine Learning?
Databricks Runtime for Machine Learning (Databricks Runtime ML) automatiserar skapandet av ett kluster med inbyggd maskininlärning och djupinlärningsinfrastruktur, inklusive de vanligaste ML- och DL-biblioteken.
Bibliotek som ingår i Databricks Runtime ML
Databricks Runtime ML innehåller en mängd populära ML-bibliotek. Biblioteken uppdateras med varje version så att de innehåller nya funktioner och korrigeringar.
Databricks har angett en delmängd av de bibliotek som stöds som bibliotek på den översta nivån. För de här biblioteken ger Databricks en snabbare update-takt genom att uppdatera till de senaste paketversionerna med varje ny körtidsversion (med undantag för beroendekonflikter). Databricks tillhandahåller även avancerad support, testning och inbäddade optimeringar för bibliotek på den översta nivån. Bibliotek på den översta nivån läggs till eller tas endast bort med större versioner.
En fullständig list av bibliotek av högsta kvalitet och andra tillhandahållna bibliotek finns i releasenoter för Databricks Runtime ML.
Du kan installera ytterligare bibliotek för att skapa en anpassad miljö för notebook-filen eller klustret.
- Skapa ett klusterbibliotek för att göra ett bibliotek tillgängligt för alla notebook-filer som körs i ett kluster. Du kan också använda ett init-skript för att installera bibliotek i kluster när de skapas.
- Om du vill installera ett bibliotek som endast är tillgängligt för en specifik notebook-session använder du Python-bibliotek med notebook-omfattning.
Set frigör beräkningsresurser för Databricks Runtime ML
Processen för att skapa beräkning baserat på Databricks Runtime ML beror på om din arbetsyta är aktiverad för Dedikerad gruppkluster Offentlig förhandsversion eller inte. Arbetsytor som är aktiverade för förhandsversionen har ett nytt förenklat beräkningsgränssnitt.
Skapa ett kluster med Databricks Runtime ML
När du skapar ett kluster select en Databricks Runtime ML-version från Databricks-körningsversionen nedrullningsbara menyn. Både CPU- och GPU-aktiverade ML-körningar är tillgängliga.
Om du select ett kluster från rullgardinsmenyn i anteckningsbokenvisas Databricks Runtime-versionen till höger om klusternamnet.
Om du select en GPU-aktiverad ML-körning uppmanas du att select en kompatibel drivrutinstyp och Worker-typ. Inkompatibla instanstyper är nedtonade i den nedrullningsbara menyn. GPU-aktiverade instanstyper visas under etiketten GPU-accelererad . Information om hur du skapar Azure Databricks GPU-kluster finns i GPU-aktiverad beräkning. Databricks Runtime ML har drivrutiner för GPU-maskinvara och NVIDIA-bibliotek som CUDA.
Skapa ett nytt kluster med det nya förenklade beräkningsgränssnittet
Använd stegen i det här avsnittet endast om arbetsytan är aktiverad för förhandsversionen av dedikerade gruppkluster.
Om du vill använda maskininlärningsversionen av Databricks Runtime select kryssrutan Machine Learning.
För GPU-baserad beräkning select en GPU-aktiverad instanstyp. För den fullständiga listan list över GPU-typer som stöds, se Stödda instanstyper.
Photon och Databricks Runtime ML
När du skapar ett CPU-kluster som kör Databricks Runtime 15.2 ML eller senare kan du välja att aktivera Photon. Photon förbättrar prestanda för program som använder Spark SQL, Spark DataFrames, funktionsteknik, GraphFrames och xgboost4j. Det förväntas inte förbättra prestanda för program som använder Spark RDDs, Pandas UDF:er och icke-JVM-språk som Python. Python-paket som XGBoost, PyTorch och TensorFlow ser därför ingen förbättring med Photon.
Spark RDD-API:er och Spark MLlib har begränsad kompatibilitet med Photon. När du bearbetar stora datamängder med Spark RDD eller Spark MLlib kan det uppstå problem med Spark-minnet. Se Problem med Spark-minne.
Åtkomstläge för Databricks Runtime ML-kluster
Om du vill komma åt data i Unity Catalog på ett kluster som kör Databricks Runtime ML måste du göra något av följande:
- Set klustret med hjälp av åtkomstläge för en användare.
- Set starta klustret med hjälp av Dedikerat åtkomstläge. Det dedikerade åtkomstläget är för närvarande i offentlig förhandsversion. Dedikerat åtkomstläge innehåller funktionerna i läget Delad åtkomst på Databricks Runtime ML.
När en beräkningsresurs har dedikerad åtkomst kan resursen tilldelas till en enskild användare eller en grupp. När användaren tilldelas till en grupp (ett gruppkluster) minskar användarens behörigheter automatiskt till gruppens behörigheter, vilket gör att användaren på ett säkert sätt kan dela resursen med andra medlemmar i gruppen.
När du använder åtkomstläge för en användare är följande funktioner endast tillgängliga på Databricks Runtime 15.4 LTS ML och senare: