Limiti e aree di disponibilità di Model Serving
Questo articolo riepiloga le limitazioni e la disponibilità dell'area per il modello di intelligenza artificiale Mosaic e i tipi di endpoint supportati.
Limiti di risorse e payload
Mosaic AI Model Serving impone limiti predefiniti per garantire prestazioni affidabili. Se si hanno commenti e suggerimenti su questi limiti, contattare il team dell'account Databricks.
La tabella seguente riepiloga le limitazioni delle risorse e del payload per la gestione degli endpoint del modello.
Funzionalità | Granularità | Limite |
---|---|---|
Dimensioni del payload | Per richiesta | 16 MB. Per gli endpoint che gestiscono modelli di base o modelli esterni, il limite è di 4 MB. |
Query al secondo | Per area di lavoro | 200, ma può essere aumentato a 25.000 o più contattando il team dell'account Databricks. |
Durata dell'esecuzione del modello | Per richiesta | 120 secondi |
Utilizzo della memoria del modello di endpoint CPU | Per endpoint | 4 GB |
Utilizzo della memoria del modello di endpoint GPU | Per endpoint | La memoria GPU è maggiore o uguale a quella assegnata, dipende dalle dimensioni del carico di lavoro GPU |
Concorrenza con provisioning | Per modello e per area di lavoro | 200 di concorrenza. Può essere aumentato contattando il team dell'account Databricks. |
Latenza overhead | Per richiesta | Meno di 50 millisecondi |
Script init | Gli script Init non sono supportati. | |
Limiti di velocità delle API Modello di base (con pagamento in base al token) | Per area di lavoro | Se i limiti seguenti non sono sufficienti per il caso d'uso, Databricks consiglia di usare la produttività con provisioning. - Llama 3.1 70B Instruct ha un limite di 2 query al secondo e 1200 query all'ora. - Llama 3.1 405B Instruct ha un limite di 1 query al secondo e 1200 query all'ora. - Il modello DBRX Instruct ha un limite di 1 query al secondo. - Mixtral-8x 7B Instruct ha un limite di frequenza predefinito di 2 query al secondo. - GTE Large (En) ha un limite di frequenza di 150 query al secondo - BGE Large (En) ha un limite di frequenza di 600 query al secondo. |
Limiti di velocità delle API Modello di base (produttività con provisioning) | Per area di lavoro | 200 |
Limitazioni di rete e sicurezza
- Gli endpoint di Model Serving sono protetti dal controllo degli accessi e rispettano le regole di ingresso relative alla rete configurate nell'area di lavoro, come elenchi di accesso IP e collegamento privato.
- La connettività privata (ad esempio collegamento privato di Azure) è supportata solo per gli endpoint di gestione del modello che usano la velocità effettiva o gli endpoint con provisioning che gestiscono modelli personalizzati.
- Per impostazione predefinita, Model Serving non supporta collegamento privato agli endpoint esterni (ad esempio Azure OpenAI). Il supporto per questa funzionalità viene valutato e implementato in base all'area. Per maggiori informazioni, contattare il team dell'account Azure Databricks.
- Model Serving non fornisce patch di sicurezza alle immagini del modello esistenti a causa del rischio di destabilizzazione nelle implementazioni di produzione. A contenere le patch più recenti sarà una nuova immagine del modello creata da una nuova versione. Per maggiori informazioni, contattare il team dell'account Databricks.
Limiti delle API dei modelli di base
Nota
Nell'ambito della fornitura delle API del modello di base, Databricks potrebbe elaborare i dati all'esterno dell'area in cui sono stati originati i dati, ma non all'esterno della posizione geografica pertinente.
Per i carichi di lavoro con pagamento per token e velocità effettiva con provisioning:
- Solo gli amministratori dell'area di lavoro possono modificare le impostazioni di governance, ad esempio i limiti di frequenza per gli endpoint delle API del modello di base. Per modificare i limiti di velocità, seguire questa procedura:
- Aprire l'interfaccia utente di servizio nell'area di lavoro per visualizzare gli endpoint di servizio.
- Dal menu kebab nell'endpoint delle API modello di base che si vuole modificare selezionare Visualizza dettagli.
- Dal menu kebab sul lato superiore destro della pagina dei dettagli degli endpoint selezionare Modifica limite di frequenza.
- I modelli di incorporamento GTE Large (En) non generano incorporamenti normalizzati.
Limiti relativi al pagamento per token
Di seguito sono riportati i limiti relativi alle API del modello di base per i carichi di lavoro con pagamento in base al token :
- I carichi di lavoro con pagamento in base al token non sono conformi al profilo di sicurezza HIPAA o alla conformità.
- I modelli GTE Large (En) e Meta Llama 3.1 70B Instruct sono disponibili nelle aree supportate da UE e Stati Uniti con pagamento in base al token.
- I seguenti modelli di pagamento in base al token sono supportati solo nelle aree degli Stati Uniti compatibili con le API del modello di base con pagamento in base al token:
- Meta Llama 3.1 405B Instruct
- DBRX-Instruct
- Mixtral-8x7B-Instruct
- BGE Large (En)
- Se l'area di lavoro si trova in un'area di gestione dei modelli ma non in un'area degli Stati Uniti o dell'UE, l'area di lavoro deve essere abilitata per l'elaborazione dei dati tra aree geografiche. Se abilitato, il carico di lavoro con pagamento per token viene instradato agli Stati Uniti Databricks Geo. Per vedere quali aree geografiche elaborano i carichi di lavoro con pagamento per token, vedere Servizi designati di Databricks.
Limiti di velocità effettiva con provisioning
Di seguito sono riportati i limiti rilevanti per i carichi di lavoro di velocità effettiva con provisioning delle API del modello di base:
- La velocità effettiva con provisioning supporta il profilo di conformità HIPAA ed è consigliata per i carichi di lavoro che richiedono certificazioni di conformità.
- Per usare l'architettura del modello DBRX per un carico di lavoro con velocità effettiva con provisioning, l'endpoint di gestione deve trovarsi in una delle seguenti aree:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- La tabella seguente illustra la disponibilità dell'area dei modelli Meta Llama 3.1 e 3.2 supportati. Per indicazioni su come distribuire modelli di base ottimizzati, vedere Distribuire modelli di base ottimizzati.
Variante del modello Meta Llama | Aree |
---|---|
meta-llama/Llama-3.1-8B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-8B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-70B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-405B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-405B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-1B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-3B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-3B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
Disponibilità a livello di area
Nota
Se si necessita di un endpoint in un'area non supportata, contattare il team dell'account Azure Databricks.
Se l'area di lavoro viene distribuita in un'area che supporta la gestione del modello ma viene gestita da un piano di controllo in un'area non supportata, l'area di lavoro non supporta la gestione del modello. Se si tenta di usare la gestione del modello in un'area di lavoro di questo tipo, verrà visualizzato un messaggio di errore che informa che l'area di lavoro non è supportata. Per maggiori informazioni, contattare il team dell'account Azure Databricks.
Per ulteriori informazioni sulla disponibilità regionale delle funzioni, vedere Modello che prevede la disponibilità regionale.