Aggiornare i flussi di lavoro ML ai modelli di destinazione in Unity Catalog
Questo articolo illustra come eseguire la migrazione e aggiornare i flussi di lavoro di Databricks esistenti per l'uso di modelli in Unity Catalog.
Requisiti
Privilegi obbligatori
Per eseguire un flusso di lavoro di training, distribuzione o inferenza del modello in Unity Catalog, l'entità che esegue il flusso di lavoro deve disporre dei privilegi USE CATALOG
e USE SCHEMA
sul catalogo e sullo schema che contengono il modello.
Sono necessari anche i privilegi seguenti:
- Per creare un modello, l'entità deve avere il privilegio
CREATE MODEL
. - Per caricare o distribuire un modello, l'entità deve avere il privilegio
EXECUTE
per il modello registrato.
Solo il proprietario di un modello registrato può eseguire le operazioni seguenti:
- Creare una nuova versione del modello.
- Impostare un alias in un modello registrato.
Requisiti di calcolo
La risorsa di calcolo specificata per il flusso di lavoro deve avere accesso a Unity Catalog. Vedere Modalità di accesso usata.
Creare flussi di lavoro di training, distribuzione e inferenza paralleli
Per aggiornare i flussi di lavoro di training e inferenza del modello a Unity Catalog, Databricks consiglia un approccio incrementale in cui si crea una pipeline di training, distribuzione e inferenza parallela che sfrutta i modelli in Unity Catalog. Quando si ha familiarità con i risultati usando Unity Catalog, è possibile cambiare consumer downstream per leggere l'output dell'inferenza batch o aumentare il traffico indirizzato ai modelli in Unity Catalog per la gestione degli endpoint.
Flusso di lavoro di training del modello
Clonare il flusso di lavoro di training del modello. Verificare che l'entità che esegue il flusso di lavoro e il calcolo specificato per il flusso di lavoro soddisfino i requisiti.
Modificare quindi il codice di training del modello nel flusso di lavoro clonato. Potrebbe essere necessario clonare il notebook eseguito dal flusso di lavoro oppure creare e specificare come destinazione un nuovo ramo Git nel flusso di lavoro clonato. Seguire questa procedura per installare la versione necessaria di MLflow e configurare il client in modo che sia destinato a Unity Catalog nel codice di training. Aggiornare quindi il codice di training del modello per registrare i modelli in Unity Catalog. Vedere Eseguire il training e la registrazione di modelli compatibili con Unity Catalog.
Flusso di lavoro di distribuzione del modello
Clonare il flusso di lavoro di distribuzione del modello. Verificare che l'entità che esegue il flusso di lavoro e il calcolo specificato per il flusso di lavoro soddisfino i requisiti.
Se nel flusso di lavoro di distribuzione è presente una logica di convalida del modello, aggiornarla per caricare le versioni del modello dal punto di controllo dell'utilità. Usare gli alias per gestire le implementazioni del modello di produzione.
Flusso di lavoro di inferenza del modello
Flusso di lavoro di inferenza del batch
Clonare il flusso di lavoro di inferenza del batch. Verificare che l'entità che esegue il flusso di lavoro e il calcolo specificato per il flusso di lavoro soddisfino i requisiti.
Flusso di lavoro di gestione del modello
Se si usa Mosaic AI Model Serving, non è necessario clonare l'endpoint esistente. Usare invece la funzionalità di suddivisione del traffico per avviare il routing di una piccola frazione di traffico ai modelli in Unity Catalog. Quando si esaminano i risultati usando Unity Catalog, aumentare la quantità di traffico fino a quando tutto il traffico non viene reindirizzato.
Alzare di livello un modello in ambienti diversi
La promozione di un modello in ambienti funziona in modo diverso con i modelli in Unity Catalog. Per dettagli, vedere Alzare di livello un modello in ambienti diversi.
Usare webhook di processo per l'approvazione manuale per la distribuzione del modello
Databricks consiglia di automatizzare la distribuzione del modello, se possibile, usando controlli e test appropriati durante il processo di distribuzione del modello. Tuttavia, se è necessario eseguire approvazioni manuali per distribuire i modelli di produzione, è possibile usare le notifiche dei processi per chiamare sistemi CI/CD esterni per richiedere l'approvazione manuale per la distribuzione di un modello, al termine del processo di training del modello. Dopo aver fornito l'approvazione manuale, il sistema CI/CD può quindi distribuire la versione del modello per gestire il traffico, ad esempio impostando l'alias "Campione" su di esso.