Inferenza dei tipi di distribuzione nel modello di intelligenza artificiale di Azure
L'inferenza del modello di intelligenza artificiale di Azure nei servizi di intelligenza artificiale di Azure offre ai clienti scelte sulla struttura di hosting adatta ai modelli di business e di utilizzo. Il servizio offre due tipi principali di distribuzione: standard e con provisioning. La distribuzione standard è disponibile con un'opzione di distribuzione globale, in modo da instradare il traffico a livello globale per offrire una velocità effettiva più elevata. Il provisioning è disponibile anche con un'opzione di distribuzione globale che consente ai clienti di acquistare e distribuire unità elaborate con provisioning nell'infrastruttura globale di Azure.
Tutte le distribuzioni possono eseguire esattamente le stesse operazioni di inferenza, ma la fatturazione, la scalabilità e le prestazioni sono sostanzialmente diverse. Come parte della progettazione della soluzione, è necessario prendere due decisioni chiave:
- Esigenze di residenza dei dati:confronto tra risorse globali e regionali
- Volume di chiamata: confronto tra standard e con provisioning
Il supporto dei tipi di distribuzione varia in base al modello e al provider di modelli.
Tipi di distribuzione globali e a livello di area
Per le distribuzioni standard e con provisioning è possibile scegliere uno dei due tipi di configurazioni all'interno della risorsa, ovvero Globale o A livello di area. Lo standard globale è il punto di partenza consigliato.
Le distribuzioni globali usano l'infrastruttura globale di Azure, indirizzano dinamicamente il traffico dei clienti al data center con la migliore disponibilità per le richieste di inferenza del cliente. Ciò significa che si ottengono i limiti di velocità effettiva iniziali più elevati e la migliore disponibilità del modello con Global pur fornendo il contratto di servizio del tempo di attività e la bassa latenza. Per carichi di lavoro con volumi elevati superiori ai livelli di utilizzo specificati in Standard e Standard globale, è possibile che la variazione della latenza risulti maggiore. Per i clienti che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile acquistare la velocità effettiva con provisioning.
Le distribuzioni globali sono la prima posizione per tutti i nuovi modelli e funzionalità. I clienti con requisiti di velocità effettiva molto elevati devono considerare l'offerta di distribuzione con provisioning.
Standard
Le distribuzioni standard forniscono un modello di fatturazione con pagamento in base alla chiamata nel modello scelto. Fornisce il modo più rapido per iniziare, poiché si paga solo per ciò che si utilizza. I modelli disponibili in ogni area e la velocità effettiva possono essere limitati.
Le distribuzioni standard sono ottimizzate per carichi di lavoro con volumi da bassi a medi con un'elevata possibilità di burst. I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza.
Solo i modelli OpenAI di Azure supportano questo tipo di distribuzione.
Standard globale
Le distribuzioni globali sono disponibili nelle stesse risorse dei servizi di intelligenza artificiale di Azure dei tipi di distribuzione non globale, ma consentono di usare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Lo standard globale fornisce la quota predefinita più elevata ed elimina la necessità di bilanciare il carico tra più risorse.
I clienti con un volume costante elevato possono riscontrare una maggiore variabilità della latenza. La soglia viene impostata per modello. Per le applicazioni che richiedono la varianza di latenza inferiore a un utilizzo elevato del carico di lavoro, è consigliabile acquistare la velocità effettiva con provisioning, se disponibile.
Con provisioning globale
Le distribuzioni globali sono disponibili nelle stesse risorse dei servizi di intelligenza artificiale di Azure dei tipi di distribuzione non globale, ma consentono di sfruttare l'infrastruttura globale di Azure per instradare dinamicamente il traffico al data center con la migliore disponibilità per ogni richiesta. Le distribuzioni con provisioning globale offrono capacità di elaborazione dei modelli riservata per una velocità effettiva elevata e prevedibile tramite l'infrastruttura globale di Azure.
Solo i modelli OpenAI di Azure supportano questo tipo di distribuzione.