Condividi tramite


Che cos’è AutoML?

AutoML semplifica il processo di applicazione di Machine Learning ai set di dati individuando automaticamente l'algoritmo e la configurazione degli iperparametri migliori.

Come funziona AutoML?

Specificare il set di dati e specificare il tipo di problema di Machine Learning, quindi AutoML esegue le operazioni seguenti:

  1. Pulisce e prepara i dati.
  2. Orchestra il training del modello distribuito e l’ottimizzazione degli iperparametri tra più algoritmi.
  3. Trova il modello migliore usando algoritmi di valutazione open source di scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
  4. Presenta i risultati. AutoML genera anche notebook di codice sorgente per ogni versione di valutazione, consentendo di esaminare, riprodurre e modificare il codice in base alle esigenze.

Inizia con gli esperimenti AutoML tramite una UI a basso codice per la regressione, la classificazione, o la previsione, oppure tramite l'API Python .

Fabbisogno

  • Azure Databricks consiglia Databricks Runtime 10.4 LTS ML o versione successiva per la disponibilità generale di AutoML.

  • AutoML dipende dal databricks-automl-runtime pacchetto, che contiene componenti utili all'esterno di AutoML e semplifica anche i notebook generati dal training AutoML. databricks-automl-runtime è disponibile su PyPI.

  • Nel cluster non devono essere installate librerie aggiuntive diverse da quelle preinstallate in Databricks Runtime per Machine Learning.

    • Qualsiasi modifica (rimozione, aggiornamento o downgrade) a versioni della libreria esistenti causa errori di esecuzione a causa di incompatibilità.
  • Per accedere ai file nell’area di lavoro, è necessario avere porte di rete 1017 e 1021 aperte per gli esperimenti AutoML. Per aprire queste porte o verificare che siano aperte, esaminare la configurazione del firewall VPN cloud e le regole del gruppo di sicurezza oppure contattare l’amministratore cloud locale. Per altre informazioni sulla configurazione e la distribuzione dell’area di lavoro, consultare la sezione Creare un’area di lavoro.

  • Usare una risorsa di calcolo con una modalità di accesso di calcolo supportata. Non tutte le modalità di accesso alle risorse di calcolo hanno accesso al catalogo Unity:

    Confrontare le modalità di accesso Supporto di AutoML Supporto per il catalogo Unity
    modalità di accesso dedicato Non supportato Supportata
    utente singolo Supportato (deve essere l’utente singolo designato per il cluster) Supportata
    Chiave di accesso condiviso Non supportato Non supportato
    Nessun isolamento condiviso Supportata Non supportato

Algoritmi AutoML

AutoML esegue il training e valuta i modelli in base agli algoritmi nella tabella seguente.

Nota

Per i modelli di classificazione e regressione, l’albero delle decisioni, le transizioni casuali, la regressione logistica e la regressione lineare con algoritmi di discesa del gradiente stocastico sono basati su scikit-learn.

Modelli di classificazione Modelli di regressione Modello di previsione Modelli di previsione (serverless)
Alberi delle decisioni Alberi delle decisioni Prophet Prophet
Forest casuali Forest casuali Auto-ARIMA (disponibile in Databricks Runtime 10.3 ML e versioni successive). ARIMA automatica
Logistic Regression Regressione lineare con discesa sfumata stocastica DeepAR
XGBoost XGBoost
LightGBM LightGBM

Generazione di notebook di valutazione

AutoML di calcolo classico genera notebook delle versioni di valutazione del codice sorgente, in modo da poter esaminare, riprodurre e modificare il codice in base alle esigenze.

Per gli esperimenti di previsione, i notebook generati automaticamente da AutoML vengono importati automaticamente nell’area di lavoro per tutte le versioni di valutazione dell’esperimento.

Per gli esperimenti di classificazione e regressione, i notebook generati da AutoML per l’esplorazione dei dati e la versione di valutazione ottimale nell’esperimento vengono importati automaticamente nell’area di lavoro. I notebook generati per altre versioni di valutazione dell’esperimento vengono salvati come artefatti MLflow in DBFS anziché importati automaticamente nell’area di lavoro. Per tutti gli esperimenti ad eccezione del migliore, i notebook_path e i notebook_url nell'API Python TrialInfo non sono impostati. Se è necessario usare questi notebook, è possibile importarli manualmente nell’area di lavoro con l’interfaccia utente dell’esperimento AutoML o l’databricks.automl.import_notebookAPI Python.

Se si usa solo il notebook di esplorazione dei dati o il notebook di valutazione migliore generato da AutoML, la colonna origine nell'interfaccia utente dell'esperimento AutoML contiene il collegamento al notebook generato per la migliore versione di valutazione.

Se si usano altri notebook generati nell’interfaccia utente dell’esperimento AutoML, questi non vengono importati automaticamente nell’area di lavoro. È possibile trovare i notebook facendo clic su ogni esecuzione di MLflow. Il notebook IPython viene salvato nella sezione Artifacts della pagina di esecuzione. È possibile scaricare questo notebook e importarlo nell’area di lavoro, se il download degli artefatti viene abilitato dagli amministratori dell’area di lavoro.

Valori Shapley (SHAP) per l'interpretabilità del modello

Nota

Per MLR 11.1 e versioni successive, i tracciati SHAP non vengono generati se il set di dati contiene una colonna datetime.

I notebook prodotti dalle esecuzioni AutoML di regressione e di classificazione includono il codice per calcolare valori Shapley. I valori shapley sono basati sulla teoria del gioco e stimano l'importanza di ogni funzionalità per le stime di un modello.

I notebook AutoML calcolano i valori Shapley usando il pacchetto SHAP . Poiché questi calcoli sono a elevato utilizzo di memoria, i calcoli non vengono eseguiti per impostazione predefinita.

Per calcolare e visualizzare i valori shapley:

  1. Passare alla sezione Importanza funzionalità in un notebook di valutazione generato da AutoML.
  2. Impostare shap_enabled = True.
  3. Per eseguire il notebook.

Passaggi successivi