Limiti e aree di disponibilità di Model Serving

Articolo
01/29/2025

Questo articolo riepiloga le limitazioni e la disponibilità dell'area per il modello di intelligenza artificiale Mosaic e i tipi di endpoint supportati.

Limiti di risorse e payload

Mosaic AI Model Serving impone limiti predefiniti per garantire prestazioni affidabili. Se si hanno commenti e suggerimenti su questi limiti, contattare il team dell'account Databricks.

La tabella seguente riepiloga le limitazioni delle risorse e del payload per la gestione degli endpoint del modello.

Funzionalità	Granularità	Limite
Dimensioni del payload	Per richiesta	16 MB. Per gli endpoint che gestiscono modelli di base , modelli esternio agenti di intelligenza artificiale il limite è di 4 MB.
Dimensione richiesta/risposta	Per richiesta	Qualsiasi richiesta/risposta su 1 MB non verrà registrata.
Query al secondo	Per area di lavoro	200, ma può essere aumentato a 25.000 o più contattando il team dell'account Databricks.
Durata dell'esecuzione del modello	Per richiesta	120 secondi
Utilizzo della memoria del modello di endpoint CPU	Per endpoint	4 GB
Utilizzo della memoria del modello di endpoint GPU	Per endpoint	La memoria GPU è maggiore o uguale a quella assegnata, dipende dalle dimensioni del carico di lavoro GPU
Concorrenza con provisioning	Per modello e per area di lavoro	200 di concorrenza. Può essere aumentato contattando il team dell'account Databricks.
Latenza overhead	Per richiesta	Meno di 50 millisecondi
Script init		Gli script Init non sono supportati.
Limiti di velocità delle API Modello di base (con pagamento in base al token)	Per area di lavoro	Se i limiti seguenti non sono sufficienti per il caso d'uso, Databricks consiglia di usare la produttività con provisioning. - Llama 3.3 70B Instruct ha un limite di 2 query al secondo e 1200 query all'ora. - Llama 3.1 405B Instruct ha un limite di 1 query al secondo e 1200 query all'ora. - Il modello DBRX Instruct ha un limite di 1 query al secondo. - Mixtral-8x 7B Instruct ha un limite di frequenza predefinito di 2 query al secondo. - GTE Large (En) ha un limite di frequenza di 150 query al secondo - BGE Large (En) ha un limite di frequenza di 600 query al secondo.
Limiti di velocità delle API Modello di base (produttività con provisioning)	Per area di lavoro	200

Limitazioni di rete e sicurezza

Gli endpoint di Model Serving sono protetti dal controllo degli accessi e rispettano le regole di ingresso relative alla rete configurate nell'area di lavoro, come elenchi di accesso IP e collegamento privato.
La connettività privata (ad esempio collegamento privato di Azure) è supportata solo per gli endpoint di gestione del modello che usano la velocità effettiva o gli endpoint con provisioning che gestiscono modelli personalizzati.
Per impostazione predefinita, Model Serving non supporta collegamento privato agli endpoint esterni (ad esempio Azure OpenAI). Il supporto per questa funzionalità viene valutato e implementato in base all'area. Per maggiori informazioni, contattare il team dell'account Azure Databricks.
Model Serving non fornisce patch di sicurezza alle immagini del modello esistenti a causa del rischio di destabilizzazione nelle implementazioni di produzione. A contenere le patch più recenti sarà una nuova immagine del modello creata da una nuova versione. Per maggiori informazioni, contattare il team dell'account Databricks.

Limiti delle API dei modelli di base

Nota

Come parte dell'offerta delle API del modello di base, Databricks potrebbe elaborare i dati all'esterno dell'area e del provider di servizi cloud in cui sono stati originati i dati.

Nota

Nell'ambito dell'offerta delle API del modello di base, Databricks potrebbe elaborare i dati all'esterno dell'area in cui sono stati originati i dati, ma non al di fuori della posizione geografica pertinente .

Per i carichi di lavoro con pagamento per token e velocità effettiva con provisioning:

Solo gli amministratori dell'area di lavoro possono modificare le impostazioni di governance, ad esempio i limiti di frequenza per gli endpoint delle API del modello di base. Per modificare i limiti di velocità, seguire questa procedura:
1. Aprire l'interfaccia utente di servizio nell'area di lavoro per visualizzare gli endpoint di servizio.
2. Dal menu kebab nell'endpoint delle API del modello di base da modificare selezionare Visualizza dettagli.
3. Dal menu kebab sul lato superiore destro della pagina dei dettagli degli endpoint selezionare Limite di frequenza di modifica.
I GTE Large (En) modelli di incorporamento non generano incorporamenti normalizzati.

Limiti relativi al pagamento per token

Di seguito sono riportati i limiti relativi alle API del modello di base per i carichi di lavoro con pagamento in base al token :

I carichi di lavoro con pagamento in base al tokennon sono conformi al profilo di sicurezza HIPAA o alla conformità.
modelli di meta Llama 3.3 70B e GTE Large (En) sono disponibili nelle aree con pagamento in base al token UE e negli Stati Uniti.
I seguenti modelli di pagamento in base al token sono supportati solo nelle aree degli Stati Uniti compatibili con le API del modello di base con pagamento in base al token:
- Meta Llama 3.1 405B Instruct
- DBRX-Instruct
- Mixtral-8x7B-Instruct
- BGE Large (En)
Se l'area di lavoro si trova in un'area di gestione dei modelli ma non in un'area degli Stati Uniti o dell'UE, l'area di lavoro deve essere abilitata per l'elaborazione dei dati tra aree geografiche. Se abilitato, il carico di lavoro con pagamento per token viene instradato agli Stati Uniti Databricks Geo. Per vedere quali aree geografiche elaborano i carichi di lavoro con pagamento per token, vedere Servizi designati di Databricks.

Limiti di velocità effettiva con provisioning

Di seguito sono riportati i limiti rilevanti per i carichi di lavoro di velocità effettiva con provisioning delle API del modello di base:

La velocità effettiva con provisioning supporta il profilo di conformità HIPAA ed è consigliata per i carichi di lavoro che richiedono certificazioni di conformità.
Per usare l'architettura del modello DBRX per un carico di lavoro con velocità effettiva con provisioning, l'endpoint di gestione deve trovarsi in una delle seguenti aree:
- eastus
- eastus2
- westus
- centralus
- westeurope
- northeurope
- australiaeast
- canadacentral
- brazilsouth
La tabella seguente illustra la disponibilità dell'area dei modelli Meta Llama 3.1, 3.2 e 3.3 supportati. Per indicazioni su come distribuire modelli di base ottimizzati, vedere Distribuire modelli di base ottimizzati.

Variante del modello Meta Llama	Aree
meta-llama/Llama-3.1-8B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-8B-Instruct	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-70B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-70B-Instruct	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-405B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-llama/Llama-3.1-405B-Instruct	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-llama/Llama-3.2-1B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.2-1B-Instruct	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.2-3B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.2-3B-Instruct	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.3-70B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`

Limiti di velocità effettiva con provisioning

Di seguito sono riportati i limiti rilevanti per i carichi di lavoro di velocità effettiva con provisioning delle API del modello di base:

La velocità effettiva con provisioning supporta il profilo di conformità HIPAA ed è consigliata per i carichi di lavoro che richiedono certificazioni di conformità.

I GTE Large (En) modelli di incorporamento non generano incorporamenti normalizzati.
La tabella seguente illustra la disponibilità dell'area dei modelli Meta Llama 3.1, 3.2 e 3.3 supportati. Per indicazioni su come distribuire modelli di base ottimizzati, vedere Distribuire modelli di base ottimizzati.

Variante del modello Meta Llama	Aree
meta-llama/Llama-3.1-8B-Instruct	- `us-east1` - `us-central1`
meta-llama/Llama-3.1-70B-Instruct	- `us-east1` - `us-central1`
meta-llama/Llama-3.2-1B-Instruct	- `us-east1` - `us-central1`
meta-llama/Llama-3.2-3B-Instruct	- `us-east1` - `us-central1`

Disponibilità a livello di area

Nota

Se si necessita di un endpoint in un'area non supportata, contattare il team dell'account Azure Databricks.

Se l'area di lavoro viene distribuita in un'area che supporta la gestione del modello ma viene gestita da un piano di controllo in un'area non supportata, l'area di lavoro non supporta la gestione del modello. Se si tenta di usare la gestione del modello in un'area di lavoro di questo tipo, verrà visualizzato un messaggio di errore che informa che l'area di lavoro non è supportata. Per maggiori informazioni, contattare il team dell'account Azure Databricks.

Per ulteriori informazioni sulla disponibilità regionale delle funzioni, vedere Modello che prevede la disponibilità regionale.

Condividi tramite

Limiti e aree di disponibilità di Model Serving

Limiti di risorse e payload

Limitazioni di rete e sicurezza

Limiti delle API dei modelli di base

Limiti relativi al pagamento per token

Limiti di velocità effettiva con provisioning

Limiti di velocità effettiva con provisioning

Disponibilità a livello di area

Commenti e suggerimenti

Risorse aggiuntive