Dela via


Databricks Runtime för maskininlärning

Den här artikeln beskriver Databricks Runtime for Machine Learning och ger vägledning för hur du skapar ett kluster som använder det.

Vad är Databricks Runtime för Machine Learning?

Databricks Runtime for Machine Learning (Databricks Runtime ML) automatiserar skapandet av ett kluster med inbyggd maskininlärning och djupinlärningsinfrastruktur, inklusive de vanligaste ML- och DL-biblioteken.

Bibliotek som ingår i Databricks Runtime ML

Databricks Runtime ML innehåller en mängd populära ML-bibliotek. Biblioteken uppdateras med varje version så att de innehåller nya funktioner och korrigeringar.

Databricks har angett en delmängd av de bibliotek som stöds som bibliotek på den översta nivån. För de här biblioteken ger Databricks en snabbare update-takt genom att uppdatera till de senaste paketversionerna med varje ny körtidsversion (med undantag för beroendekonflikter). Databricks tillhandahåller även avancerad support, testning och inbäddade optimeringar för bibliotek på den översta nivån. Bibliotek på den översta nivån läggs till eller tas endast bort med större versioner.

En fullständig list av bibliotek av högsta kvalitet och andra tillhandahållna bibliotek finns i releasenoter för Databricks Runtime ML.

Du kan installera ytterligare bibliotek för att skapa en anpassad miljö för notebook-filen eller klustret.

Set frigör beräkningsresurser för Databricks Runtime ML

Processen för att skapa beräkning baserat på Databricks Runtime ML beror på om din arbetsyta är aktiverad för Dedikerad gruppkluster Offentlig förhandsversion eller inte. Arbetsytor som är aktiverade för förhandsversionen har ett nytt förenklat beräkningsgränssnitt.

Skapa ett kluster med Databricks Runtime ML

När du skapar ett kluster select en Databricks Runtime ML-version från Databricks-körningsversionen nedrullningsbara menyn. Både CPU- och GPU-aktiverade ML-körningar är tillgängliga.

Select Databricks Runtime ML

Om du select ett kluster från rullgardinsmenyn i anteckningsbokenvisas Databricks Runtime-versionen till höger om klusternamnet.

Visa Databricks Runtime ML-version

Om du select en GPU-aktiverad ML-körning uppmanas du att select en kompatibel drivrutinstyp och Worker-typ. Inkompatibla instanstyper är nedtonade i den nedrullningsbara menyn. GPU-aktiverade instanstyper visas under etiketten GPU-accelererad . Information om hur du skapar Azure Databricks GPU-kluster finns i GPU-aktiverad beräkning. Databricks Runtime ML har drivrutiner för GPU-maskinvara och NVIDIA-bibliotek som CUDA.

Skapa ett nytt kluster med det nya förenklade beräkningsgränssnittet

Använd stegen i det här avsnittet endast om arbetsytan är aktiverad för förhandsversionen av dedikerade gruppkluster.

Om du vill använda maskininlärningsversionen av Databricks Runtime select kryssrutan Machine Learning.

MLR-val av beräkningsgränssnittet

För GPU-baserad beräkning select en GPU-aktiverad instanstyp. För den fullständiga listan list över GPU-typer som stöds, se Stödda instanstyper.

Photon och Databricks Runtime ML

När du skapar ett CPU-kluster som kör Databricks Runtime 15.2 ML eller senare kan du välja att aktivera Photon. Photon förbättrar prestanda för program som använder Spark SQL, Spark DataFrames, funktionsteknik, GraphFrames och xgboost4j. Det förväntas inte förbättra prestanda för program som använder Spark RDDs, Pandas UDF:er och icke-JVM-språk som Python. Python-paket som XGBoost, PyTorch och TensorFlow ser därför ingen förbättring med Photon.

Spark RDD-API:er och Spark MLlib har begränsad kompatibilitet med Photon. När du bearbetar stora datamängder med Spark RDD eller Spark MLlib kan det uppstå problem med Spark-minnet. Se Problem med Spark-minne.

Åtkomstläge för Databricks Runtime ML-kluster

Om du vill komma åt data i Unity Catalog på ett kluster som kör Databricks Runtime ML måste du göra något av följande:

  • Set klustret med hjälp av åtkomstläge för en användare.
  • Set starta klustret med hjälp av Dedikerat åtkomstläge. Det dedikerade åtkomstläget är för närvarande i offentlig förhandsversion. Dedikerat åtkomstläge innehåller funktionerna i läget Delad åtkomst på Databricks Runtime ML.

När en beräkningsresurs har dedikerad åtkomst kan resursen tilldelas till en enskild användare eller en grupp. När användaren tilldelas till en grupp (ett gruppkluster) minskar användarens behörigheter automatiskt till gruppens behörigheter, vilket gör att användaren på ett säkert sätt kan dela resursen med andra medlemmar i gruppen.

När du använder åtkomstläge för en användare är följande funktioner endast tillgängliga på Databricks Runtime 15.4 LTS ML och senare: