Che cos’è AutoML?

Articolo
02/03/2025

AutoML semplifica il processo di applicazione di Machine Learning ai set di dati individuando automaticamente l'algoritmo e la configurazione degli iperparametri migliori.

Come funziona AutoML?

Specificare il set di dati e specificare il tipo di problema di Machine Learning, quindi AutoML esegue le operazioni seguenti:

Pulisce e prepara i dati.
Orchestra il training del modello distribuito e l’ottimizzazione degli iperparametri tra più algoritmi.
Trova il modello migliore usando algoritmi di valutazione open source di scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
Presenta i risultati. AutoML genera anche notebook di codice sorgente per ogni versione di valutazione, consentendo di esaminare, riprodurre e modificare il codice in base alle esigenze.

Inizia con gli esperimenti AutoML tramite una UI a basso codice per la regressione, la classificazione, o la previsione, oppure tramite l'API Python .

Fabbisogno

Azure Databricks consiglia Databricks Runtime 10.4 LTS ML o versione successiva per la disponibilità generale di AutoML.
AutoML dipende dal databricks-automl-runtime pacchetto, che contiene componenti utili all'esterno di AutoML e semplifica anche i notebook generati dal training AutoML. databricks-automl-runtime è disponibile su PyPI.
Nel cluster non devono essere installate librerie aggiuntive diverse da quelle preinstallate in Databricks Runtime per Machine Learning.
- Qualsiasi modifica (rimozione, aggiornamento o downgrade) a versioni della libreria esistenti causa errori di esecuzione a causa di incompatibilità.
Per accedere ai file nell’area di lavoro, è necessario avere porte di rete 1017 e 1021 aperte per gli esperimenti AutoML. Per aprire queste porte o verificare che siano aperte, esaminare la configurazione del firewall VPN cloud e le regole del gruppo di sicurezza oppure contattare l’amministratore cloud locale. Per altre informazioni sulla configurazione e la distribuzione dell’area di lavoro, consultare la sezione Creare un’area di lavoro.

Usare una risorsa di calcolo con una modalità di accesso di calcolo supportata. Non tutte le modalità di accesso alle risorse di calcolo hanno accesso al catalogo Unity:

Confrontare le modalità di accesso	Supporto di AutoML	Supporto per il catalogo Unity
modalità di accesso dedicato	Non supportato	Supportata
utente singolo	Supportato (deve essere l’utente singolo designato per il cluster)	Supportata
Chiave di accesso condiviso	Non supportato	Non supportato
Nessun isolamento condiviso	Supportata	Non supportato

Algoritmi AutoML

AutoML esegue il training e valuta i modelli in base agli algoritmi nella tabella seguente.

Nota

Per i modelli di classificazione e regressione, l’albero delle decisioni, le transizioni casuali, la regressione logistica e la regressione lineare con algoritmi di discesa del gradiente stocastico sono basati su scikit-learn.

Modelli di classificazione	Modelli di regressione	Modello di previsione	Modelli di previsione (serverless)
Alberi delle decisioni	Alberi delle decisioni	Prophet	Prophet
Forest casuali	Forest casuali	Auto-ARIMA (disponibile in Databricks Runtime 10.3 ML e versioni successive).	ARIMA automatica
Logistic Regression	Regressione lineare con discesa sfumata stocastica		DeepAR
XGBoost	XGBoost
LightGBM	LightGBM

Generazione di notebook di valutazione

AutoML di calcolo classico genera notebook delle versioni di valutazione del codice sorgente, in modo da poter esaminare, riprodurre e modificare il codice in base alle esigenze.

Per gli esperimenti di previsione, i notebook generati automaticamente da AutoML vengono importati automaticamente nell’area di lavoro per tutte le versioni di valutazione dell’esperimento.

Per gli esperimenti di classificazione e regressione, i notebook generati da AutoML per l’esplorazione dei dati e la versione di valutazione ottimale nell’esperimento vengono importati automaticamente nell’area di lavoro. I notebook generati per altre versioni di valutazione dell’esperimento vengono salvati come artefatti MLflow in DBFS anziché importati automaticamente nell’area di lavoro. Per tutti gli esperimenti ad eccezione del migliore, i notebook_path e i notebook_url nell'API Python TrialInfo non sono impostati. Se è necessario usare questi notebook, è possibile importarli manualmente nell’area di lavoro con l’interfaccia utente dell’esperimento AutoML o l’databricks.automl.import_notebookAPI Python.

Se si usa solo il notebook di esplorazione dei dati o il notebook di valutazione migliore generato da AutoML, la colonna origine nell'interfaccia utente dell'esperimento AutoML contiene il collegamento al notebook generato per la migliore versione di valutazione.

Se si usano altri notebook generati nell’interfaccia utente dell’esperimento AutoML, questi non vengono importati automaticamente nell’area di lavoro. È possibile trovare i notebook facendo clic su ogni esecuzione di MLflow. Il notebook IPython viene salvato nella sezione Artifacts della pagina di esecuzione. È possibile scaricare questo notebook e importarlo nell’area di lavoro, se il download degli artefatti viene abilitato dagli amministratori dell’area di lavoro.

Valori Shapley (SHAP) per l'interpretabilità del modello

Nota

Per MLR 11.1 e versioni successive, i tracciati SHAP non vengono generati se il set di dati contiene una colonna datetime.

I notebook prodotti dalle esecuzioni AutoML di regressione e di classificazione includono il codice per calcolare valori Shapley. I valori shapley sono basati sulla teoria del gioco e stimano l'importanza di ogni funzionalità per le stime di un modello.

I notebook AutoML calcolano i valori Shapley usando il pacchetto SHAP . Poiché questi calcoli sono a elevato utilizzo di memoria, i calcoli non vengono eseguiti per impostazione predefinita.

Per calcolare e visualizzare i valori shapley:

Passare alla sezione Importanza funzionalità in un notebook di valutazione generato da AutoML.
Impostare shap_enabled = True.
Per eseguire il notebook.

Condividi tramite

Che cos’è AutoML?

Come funziona AutoML?

Fabbisogno

Algoritmi AutoML

Generazione di notebook di valutazione

Valori Shapley (SHAP) per l'interpretabilità del modello

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive