Condividi tramite


Considerazioni su continuità aziendale e ripristino di emergenza (BCDR) con il Servizio OpenAI di Azure

OpenAI di Azure è disponibile in più aree. Quando si crea una risorsa del servizio OpenAI di Azure, occorre specificare un'area. Da quel momento in poi, la risorsa e tutte le relative operazioni rimangono associate a tale area del server di Azure.

È raro, ma non impossibile, riscontrare un problema di rete che interessa un'intera area. Se il servizio deve essere sempre disponibile, è necessario progettarlo per eseguire il failover in un'altra area o suddividere il carico di lavoro tra due o più aree. Entrambi gli approcci richiedono almeno due risorse di OpenAI di Azure in aree diverse. Questo articolo fornisce consigli generali su come implementare continuità aziendale e ripristino di emergenza (BCDR) per le applicazioni OpenAI di Azure.

I processi di continuità aziendale e ripristino di emergenza (BCDR) richiedono codice personalizzato

Al momento i clienti chiamano l'endpoint fornito durante la distribuzione per l'inferenza. Le operazioni di inferenza sono senza stato, quindi non vengono persi dati nel caso in cui un'area non sia più disponibile.

Se un'area non è operativa, i clienti devono adottare misure per garantire la continuità del servizio.

Continuità aziendale e ripristino di emergenza per il modello di base e il modello personalizzato

Se si usano i modelli di base, è necessario configurare il codice client per monitorare gli errori e, se gli errori persistono, essere pronti al reindirizzamento verso un'altra area di propria scelta in cui si dispone di una sottoscrizione del servizio OpenAI di Azure.

Seguire questa procedura per configurare il client per monitorare gli errori:

  1. Usare la pagina Modelli per scegliere i data center e le aree in base alle esigenze.

  2. Selezionare un'area primaria e una o più aree secondarie/di backup dall'elenco.

  3. Creare risorse del servizio OpenAI di Azure per ogni area selezionata.

  4. Per l'area primaria e qualsiasi area di backup che il codice dovrà conoscere:

    • URI di base per la risorsa
    • Chiave di accesso a livello di area o accesso Microsoft Entra ID
  5. Configurare il codice in modo da monitorare gli errori di connettività, in genere timeout di connessione ed errori di indisponibilità del servizio.

    • Dato che le reti generano errori temporanei, riprovare in caso di problemi di connettività per singole occorrenze.
    • Per problemi di connettività persistenti, reindirizzare il traffico alla risorsa di backup nelle aree create.

Se è stato ottimizzato un modello nell'area primaria, sarà necessario ripetere il training del modello di base nelle aree secondarie usando gli stessi dati di training. Seguire quindi i passaggi indicati in precedenza.