Overwegingen voor bedrijfscontinuïteit en herstel na noodgevallen (BCDR) met De Azure OpenAI-service

Artikel
10/16/2024

Azure OpenAI is beschikbaar in meerdere regio's. Wanneer u een Azure OpenAI-resource maakt, geeft u een regio op. Vanaf dat jaar blijven uw resource en alle bijbehorende bewerkingen gekoppeld aan die Azure-serverregio.

Het is zeldzaam, maar niet onmogelijk, om een netwerkprobleem te krijgen dat een hele regio raakt. Als uw service altijd beschikbaar moet zijn, moet u deze ontwerpen voor failover in een andere regio of de workload splitsen tussen twee of meer regio's. Voor beide benaderingen zijn ten minste twee Azure OpenAI-resources in verschillende regio's vereist. Dit artikel bevat algemene aanbevelingen voor het implementeren van BCDR (Business Continuity and Disaster Recovery) voor uw Azure OpenAI-toepassingen.

BCDR vereist aangepaste code

Vandaag roepen klanten het eindpunt aan dat is opgegeven tijdens de implementatie voor deductie. Deductiebewerkingen zijn staatloos, dus er gaan geen gegevens verloren als een regio niet meer beschikbaar is.

Als een regio niet-bewerkingsklanten is, moeten ze stappen ondernemen om de continuïteit van de service te waarborgen.

BCDR voor basismodel en aangepast model

Als u de basismodellen gebruikt, moet u de clientcode configureren om fouten te controleren en als de fouten zich voordoen, voorbereid zijn om om te leiden naar een andere regio van uw keuze waar u een Azure OpenAI-abonnement hebt.

Volg deze stappen om uw client te configureren voor het controleren van fouten:

Gebruik de modellenpagina om de datacenters en regio's te kiezen die geschikt zijn voor u.
Selecteer een primaire en een (of meer) secundaire/back-upregio's in de lijst.
Maak Azure OpenAI-resources voor elke geselecteerde regio(s).
Voor de primaire regio en eventuele back-upregio's moet uw code het volgende weten:
- Basis-URI voor de resource
- Regionale toegangssleutel of Toegang tot Microsoft Entra-id
Configureer uw code zodat u connectiviteitsfouten bewaakt (meestal verbindingstime-outs en servicefouten die niet beschikbaar zijn).
- Gezien het feit dat netwerken tijdelijke fouten opleveren, is het mogelijk om het probleem met één connectiviteit opnieuw te proberen.
- Voor permanente verbindingsproblemen moet u verkeer omleiden naar de back-upresource in de regio(s) die u hebt gemaakt.

Als u een model in uw primaire regio hebt afgestemd, moet u het basismodel opnieuw trainen in de secundaire regio('s) met behulp van dezelfde trainingsgegevens. Volg vervolgens de bovenstaande stappen.

Delen via

Overwegingen voor bedrijfscontinuïteit en herstel na noodgevallen (BCDR) met De Azure OpenAI-service

BCDR vereist aangepaste code

BCDR voor basismodel en aangepast model

Feedback

Aanvullende resources