Databricks Runtime voor machine learning
Databricks Runtime voor Machine Learning (Databricks Runtime ML) automatiseert het maken van een cluster met vooraf gebouwde machine learning- en deep learning-infrastructuur, waaronder de meest voorkomende ML- en DL-bibliotheken. Zie de releaseopmerkingen voor de volledige lijst met bibliotheken in elke versie van Databricks Runtime ML.
Notitie
Voor toegang tot gegevens in Unity Catalog voor machine learning-werkstromen moet de toegangsmodus voor het cluster één gebruiker zijn (toegewezen). Gedeelde clusters zijn niet compatibel met Databricks Runtime voor Machine Learning. Daarnaast wordt Databricks Runtime ML niet ondersteund op TableACLs-clusters of -clusters met spark.databricks.pyspark.enableProcessIsolation config
de set .true
Een cluster maken met Databricks Runtime ML
Wanneer u een cluster maakt, selecteert u een Databricks Runtime ML-versie in het vervolgkeuzemenu van de Databricks-runtimeversie . Zowel CPU- als GPU-runtimes voor ML zijn beschikbaar.
Als u een cluster selecteert in de vervolgkeuzelijst in het notebook, wordt de Databricks Runtime-versie rechts van de clusternaam weergegeven:
Als u een ML-runtime met GPU selecteert, wordt u gevraagd een compatibel stuurprogrammatype en werkroltype te selecteren. Incompatibele exemplaartypen worden grijs weergegeven in de vervolgkeuzelijst. Exemplaartypen met GPU worden vermeld onder het versnelde GPU-label. Zie rekenkracht met GPU die is ingeschakeld voor GPU voor meer informatie over het maken van GPU-clusters in Azure Databricks. Databricks Runtime ML bevat stuurprogramma's voor GPU-hardware en NVIDIA-bibliotheken, zoals CUDA.
Photon en Databricks Runtime ML
Wanneer u een CPU-cluster met Databricks Runtime 15.2 ML of hoger maakt, kunt u ervoor kiezen om Photon in te schakelen. Photon verbetert de prestaties voor toepassingen met Behulp van Spark SQL, Spark DataFrames, functie-engineering, GraphFrames en xgboost4j. Het is niet verwacht dat de prestaties voor toepassingen worden verbeterd met behulp van Spark RDD's, Pandas UDF's en niet-JVM-talen zoals Python. Python-pakketten zoals XGBoost, PyTorch en TensorFlow zien dus geen verbetering met Photon.
Spark RDD-API's en Spark MLlib hebben beperkte compatibiliteit met Photon. Wanneer u grote gegevenssets verwerkt met Behulp van Spark RDD of Spark MLlib, kunnen er problemen met spark-geheugen optreden. Bekijk problemen met Spark-geheugen.
Bibliotheken die zijn opgenomen in Databricks Runtime ML
Databricks Runtime ML bevat een verscheidenheid aan populaire ML-bibliotheken. De bibliotheken worden bijgewerkt met elke release om nieuwe functies en oplossingen op te nemen.
Databricks heeft een subset van de ondersteunde bibliotheken aangewezen als bibliotheken met de hoogste laag. Voor deze bibliotheken biedt Databricks een snellere updatefrequentie, waarbij wordt bijgewerkt naar de nieuwste pakketreleases met elke runtimerelease (afhankelijkheidsconflicten). Databricks biedt ook geavanceerde ondersteuning, tests en ingesloten optimalisaties voor bibliotheken met de hoogste laag.
Zie de releaseopmerkingen voor Databricks Runtime ML voor een volledige lijst met toplaag en andere opgegeven bibliotheken.
U kunt extra bibliotheken installeren om een aangepaste omgeving te maken voor uw notebook of cluster.
- Als u een bibliotheek beschikbaar wilt maken voor alle notebooks die op een cluster worden uitgevoerd, maakt u een clusterbibliotheek. U kunt ook een init-script gebruiken om bibliotheken op clusters te installeren bij het maken.
- Als u een bibliotheek wilt installeren die alleen beschikbaar is voor een specifieke notebooksessie, gebruikt u Python-bibliotheken met notebookbereik.