Databricks Runtime per Machine Learning
Databricks Runtime per Machine Learning (Databricks Runtime ML) automatizza la creazione di un cluster con l'infrastruttura di Machine Learning e Deep Learning predefinita, incluse le librerie ML e DL più comuni. Per l'elenco completo delle librerie in ogni versione di Databricks Runtime ML, vedere le note sulla versione.
Nota
Per accedere ai dati in Unity Catalog per i flussi di lavoro di Machine Learning, la modalità di accesso per il cluster deve essere un singolo utente (assegnato). I cluster condivisi non sono compatibili con Databricks Runtime per Machine Learning. Inoltre, Databricks Runtime ML non è supportato in cluster TableACLs o cluster con spark.databricks.pyspark.enableProcessIsolation config
impostato su true
.
Creare un cluster con Databricks Runtime ML
Quando si crea un cluster, selezionare una versione di Databricks Runtime ML dal menu a discesa Versione runtime di Databricks. Sono disponibili sia i runtime di MACHINE Learning abilitati per LA CPU che la GPU.
Se si seleziona un cluster dal menu a discesa nel notebook, la versione di Databricks Runtime viene visualizzata a destra del nome del cluster:
Se si seleziona un runtime di Machine Learning abilitato per GPU, viene richiesto di selezionare un tipo di driver compatibile e un tipo di ruolo di lavoro. I tipi di istanza incompatibili sono disattivati nel menu a discesa. I tipi di istanza abilitati per GPU sono elencati sotto l'etichetta con accelerazione GPU. Per informazioni sulla creazione di cluster Azure Databricks GPU, vedere Ambiente di calcolo abilitato per GPU. Databricks Runtime ML include driver per hardware GPU e librerie NVIDIA, ad esempio CUDA.
Machine Learning photon e Databricks Runtime
Quando si crea un cluster CPU che esegue Databricks Runtime 15.2 ML o versione successiva, è possibile scegliere di abilitare Photon. Photon migliora le prestazioni per le applicazioni che usano Spark SQL, DataFrame Spark, progettazione di funzionalità, GraphFrame e xgboost4j. Non è previsto un miglioramento delle prestazioni nelle applicazioni che usano RDD Spark, funzioni definite dall'utente Pandas e linguaggi non JVM, ad esempio Python. Di conseguenza, i pacchetti Python come XGBoost, PyTorch e TensorFlow non vedranno un miglioramento con Photon.
Le API RDD Spark e Spark MLlib hanno una compatibilità limitata con Photon. Quando si elaborano set di dati di grandi dimensioni usando Spark RDD o Spark MLlib, è possibile che si verifichino problemi di memoria Spark. Vedere Problemi di memoria Spark.
Le librerie sono incluse in Databricks Runtime ML
Databricks Runtime ML include un'ampia gamma di librerie di Machine Learning più diffuse. Le librerie vengono aggiornate con ogni versione per includere nuove funzionalità e correzioni.
Databricks ha designato un subset delle librerie supportate come librerie di livello superiore. Per queste librerie, Databricks offre una cadenza di aggiornamento più veloce, aggiornando le versioni più recenti del pacchetto con ogni versione di runtime (con conflitti di dipendenza). Databricks offre anche supporto avanzato, test e ottimizzazioni incorporate per le librerie di livello superiore.
Per un elenco completo delle librerie di livello superiore e di altre librerie fornite, vedere le note sulla versione per Databricks Runtime ML.
È possibile installare librerie aggiuntive per creare un ambiente personalizzato per il notebook o il cluster.
- Per rendere disponibile una libreria per tutti i notebook in esecuzione in un cluster, creare una libreria cluster. È possibile usare script init per installare librerie nei cluster dopo la creazione.
- Per installare una libreria disponibile solo per una sessione di notebook specifica, usare librerie Python con ambito notebook.