Distribuire modelli utilizzando Mosaic AI Model Serving
Questo articolo descrive Mosaic AI Model Serving, la soluzione Databricks per la distribuzione di modelli di intelligenza artificiale e Machine Learning per la gestione in tempo reale e l'inferenza batch.
Che cos'è Mosaic AI Model Serving?
Mosaic AI Model Serving offre un'interfaccia unificata per distribuire, gestire ed eseguire query sui modelli di intelligenza artificiale per l'inferenza batch e in tempo reale. Ogni modello usato è disponibile come API REST che è possibile integrare nell'applicazione Web o client.
Model Serving offre un servizio a disponibilità elevata e bassa latenza per la distribuzione di modelli. Il servizio aumenta o riduce automaticamente le prestazioni per soddisfare le modifiche della domanda, risparmiando i costi dell'infrastruttura e al tempo stesso ottimizzando le prestazioni della latenza. Questa funzionalità usa l’elaborazione serverless. Per altri dettagli, consultare la pagina dei prezzi Model Serving.
Model Serving offre un'API REST unificata e un'API di distribuzione MLflow per attività CRUD ed esecuzione di query. Fornisce inoltre una singola interfaccia utente per gestire tutti i modelli e i rispettivi endpoint di gestione. È anche possibile accedere ai modelli direttamente da SQL usando funzioni di IA per semplificare l'integrazione nei flussi di lavoro di analisi.
Consulta le guide seguenti per iniziare con get:
- Per un'esercitazione introduttiva su come gestire modelli personalizzati in Azure Databricks, consultare Tutorial: implementare ed eseguire query su un modello personalizzato.
- Per un'esercitazione introduttiva su come iniziare a eseguire query su un modello fondamentale in Databricks, vedere Get avviare l'esecuzione di query su LLMs in Databricks.
- Per eseguire l'inferenza batch, vedere Distribuire modelli per inferenza batch e previsione.
Modelli che è possibile distribuire
La gestione del modello supporta l'inferenza in tempo reale e batch per i tipi di modello seguenti:
-
Modelli personalizzati. Si tratta di modelli Python inclusi nel formato MLflow. Possono essere registrati in Unity Catalog o nel registro dei modelli dello spazio di lavoro. Gli esempi includono i modelli scikit-learn, XGBoost, PyTorch e Hugging Face transformer.
- La gestione dell'agente è supportata come modello personalizzato. Consulta Implementare un agente per un'applicazione di intelligenza artificiale generativa
-
Modelli di base.
- modelli di base ospitati da Databricks come Meta Llama. Questi modelli sono disponibili usando le API Foundation Model. Questi modelli sono architetture di modelli di base curate che supportano l'inferenza ottimizzata. I modelli di base, come Meta-Llama-3.3-70B-Instruct, GTE-Large e Mistral-7B, sono disponibili per l'uso immediato con prezzi con pagamento in base al token, e carichi di lavoro che richiedono garanzie di prestazioni e varianti di modello ottimizzate possono essere distribuite con velocità effettiva garantita dal provisioning.
- Foundation modelli ospitati all'esterno di Databricks come GPT-4 da OpenAI. Questi modelli sono accessibili usando modelli esterni. Gli endpoint che servono questi modelli possono essere regolati centralmente da Azure Databricks, in modo da semplificare l'uso e la gestione di vari providersLLM, ad esempio OpenAI e Anthropic, all'interno dell'organizzazione.
Nota
È possibile interagire con i modelli linguistici di grandi dimensioni supportati usando AI Playground. AI Playground è un ambiente simile a una chat where dove è possibile testare, interagire con e confrontare i modelli di linguaggio di grandi dimensioni. Questa funzionalità è disponibile nell'area di lavoro di Azure Databricks.
Perché usare Model Serving?
- Implementare ed eseguire query su qualsiasi modello: Model Serving fornisce un'interfaccia unificata che consente di gestire tutti i modelli in un'unica posizione ed eseguirne query con una singola API, indipendentemente dal fatto che siano ospitati in Databricks o esternamente. Questo approccio semplifica il processo di sperimentazione, personalizzazione e distribuzione di modelli in produzione nei vari cloud e providers.
- Personalizzare in modo sicuro i modelli con dati privati: Costruito su una piattaforma di data intelligence, Model Serving semplifica l'integrazione di funzionalità e incorporamenti in modelli tramite l'integrazione nativa con la Feature Store di Databricks e la Vector Search dell’IA Mosaic. Per migliorare ulteriormente l'accuratezza e la comprensione contestuale, i modelli possono essere ottimizzati con dati proprietari e implementati senza problemi in Model Serving.
- Governance e monitoraggio dei modelli: l'interfaccia utente di gestione consente di gestire tutti gli endpoint del modello in un'unica posizione, inclusi quelli ospitati esternamente. È possibile gestire autorizzazioni, tenere traccia dei limiti di utilizzo set e monitorare la qualità di tutti i tipi di modelli. In questo modo è possibile democratizzare l'accesso a SaaS e aprire LLMs all'interno dell'organizzazione, al contempo assicurando la protezione appropriata.
- Ridurre i costi con inferenza ottimizzata e scalabilità rapida: Databricks ha implementato una gamma di ottimizzazioni per garantire get la velocità effettiva e la latenza migliori per i modelli di grandi dimensioni. Gli endpoint aumentano o riducono automaticamente le prestazioni per soddisfare le modifiche della domanda, risparmiando i costi dell'infrastruttura e ottimizzando le prestazioni della latenza. Monitorare i costi di gestione dei modelli.
Nota
Per i carichi di lavoro sensibili alla latenza o che comportano un numero elevato di query al secondo, Databricks consiglia di usare l'ottimizzazione della route sugli endpoint del modello personalizzato. Contattare il team dell'account databricks per assicurarsi che l'area di lavoro sia abilitata per una scalabilità elevata.
- Offrire affidabilità e sicurezza a Model Serving: Model Serving è progettata per l'uso di produzione a disponibilità elevata e a bassa latenza e può supportare più di 25.000 query al secondo con una latenza inferiore a 50 ms. I carichi di lavoro sono protetti da più livelli di sicurezza, garantendo un ambiente sicuro e affidabile anche per le attività più sensibili.
Nota
Model Serving non fornisce patch di sicurezza alle immagini del modello esistenti a causa del rischio di destabilizzazione nelle implementazioni di produzione. A contenere le patch più recenti sarà una nuova immagine del modello creata da una nuova versione. Per maggiori informazioni, contattare il team dell'account Databricks.
Requisiti
- Modello registrato in Unity Catalog o nel Registro Modelli dell'Area di Lavoro .
- Le autorizzazioni per i modelli registrati sono come descritte in Gestire gli ACL degli endpoint.
- MLflow 1.29 o versione successiva.
- Se si usa collegamento privato di Azure per rispettare le regole di ingresso correlate alla rete configurate nell'area di lavoro, collegamento privato di Azure è supportato solo per gli endpoint che usano la velocità effettiva o gli endpoint con provisioning che gestiscono modelli personalizzati. Vedere Configurare la connettività privata dall’elaborazione serverless.
Abilitare Model Serving per l'area di lavoro
Non sono necessari passaggi aggiuntivi per abilitare Model Serving nell'area di lavoro.
Limitazioni e disponibilità in base all'area geografica
Mosaic AI Model Serving impone limiti predefiniti per garantire prestazioni affidabili. ConsultareLimiti e aree di disponibilità di Model Serving. Se si hanno commenti e suggerimenti su questi limiti o un endpoint in un'area non supportata, contattare il team dell'account Databricks.
Protezione dei dati in Model Serving
Databricks prende sul serio la sicurezza dei dati. Databricks comprende l'importanza dei dati analizzati usando Mosaic AI Model Serving e implementa i seguenti controlli di sicurezza per proteggere i dati.
- Ogni richiesta di un cliente a Model Serving è isolata logicamente, autenticata e autorizzata.
- Mosaic AI Model Serve crittografa tutti i dati inattivi (AES-256) e in transito (TLS 1.2+).
Negli account a pagamento, per eseguire il training di qualsiasi modello o migliorare i servizi di Databricks, Mosaic AI Model Serving non usa né gli input utente inviati al servizio, né gli output dal servizio.
Per le API del modello di base Databricks, nell'ambito della fornitura del servizio, Databricks può elaborare temporaneamente e archiviare input e output ai fini della prevenzione, rilevamento e mitigazione di abusi o usi dannosi. Gli input e gli output sono isolati da quelli di altri clienti, archiviati nella stessa area dell'area di lavoro per un massimo di trenta (30) giorni e accessibili solo per rilevare e rispondere a problemi di sicurezza o abusi. Le API del modello di base sono un servizio designato di Databricks, ovvero rispettano i limiti di residenza dei dati implementati da Databricks Geos.
Risorse aggiuntive
- Get ha iniziato l'esecuzione di query su LLMs su Databricks.
- Tutorial: Implementare ed eseguire query su un modello personalizzato
- Esercitazione: Creare endpoint per modelli esterni per interrogare i modelli OpenAI
- Introduzione alla creazione di app di IA generativa in Databricks
- Eseguire un'inferenza batch di LLM usando ai_query
- Eseguire la migrazione alla gestione dei modelli