Überlegungen zu Business Continuity & Disaster Recovery (BCDR) mit Azure OpenAI Service
Azure OpenAI ist in mehreren Regionen verfügbar. Wenn Sie eine Azure OpenAI-Ressource erstellen, geben Sie eine Region an. Ab diesem Zeitpunkt bleiben Ihre Ressource und alle zugehörigen Vorgänge mit der jeweiligen Azure-Serverregion verknüpft.
Es ist selten, aber nicht unmöglich, dass ein Netzwerkproblem auftritt, das eine ganze Region betrifft. Wenn Ihr Dienst immer verfügbar sein muss, sollten Sie ihn so konzipieren, dass entweder ein Failover in eine andere Region durchgeführt oder die Workload auf zwei oder mehr Regionen verteilt wird. Beide Ansätze erfordern mindestens zwei Azure OpenAI-Ressourcen in verschiedenen Regionen. Dieser Artikel enthält allgemeine Empfehlungen zur Implementierung von Business Continuity & Disaster Recovery (BCDR) für Ihre Azure OpenAI-Anwendungen.
BCDR erfordert benutzerdefinierten Code
Heute rufen Kunden den während der Bereitstellung angegebenen Endpunkt für Rückschlüsse auf. Rückschlussvorgänge sind zustandslos, daher gehen keine Daten verloren, wenn eine Region nicht mehr verfügbar ist.
Kunden müssen Vorkehrungen treffen, damit der Dienst weiterhin ohne Unterbrechung ausgeführt wird, wenn eine Region ausfällt.
BCDR für Basismodell und angepasstes Modell
Wenn Sie die Basismodelle verwenden, sollten Sie Ihren Clientcode für eine Überwachung auf Fehler konfigurieren. Wenn der Fehlerzustand länger andauert, sollten Sie den Datenverkehr an eine andere Region Ihrer Wahl umleiten können, in der Sie über ein Azure OpenAI-Abonnement verfügen.
Führen Sie diese Schritte aus, um Ihren Client für die Fehlerüberwachung zu konfigurieren:
Verwenden Sie die Seite Modelle, um die für Sie geeigneten Rechenzentren und Regionen auszuwählen.
Wählen Sie in der Liste eine primäre Region und mindestens eine sekundäre Region/Sicherungsregion aus.
Erstellen Sie für jede ausgewählte Region Azure OpenAI-Ressourcen.
Ihr Code benötigt die folgenden Informationen für die primäre Region und alle Sicherungsregionen:
- Basis-URI für die Ressource.
- Regionaler Zugriffsschlüssel oder Microsoft Entra ID-Zugriff
Konfigurieren Sie Ihren Code so, dass auf Verbindungsfehler (in der Regel Verbindungstimeouts und Dienstausfälle) überwacht wird.
- Angesichts der Tatsache, dass es in Netzwerken zu vorübergehenden Fehlern kommen kann, lautet die Empfehlung bei einzeln auftretenden Verbindungsproblemen, den Vorgang zu wiederholen.
- Bei dauerhaften Konnektivitätsproblemen leiten Sie den Datenverkehr an die von Ihnen erstellte Sicherungsressource in der entsprechenden Region um.
Wenn Sie ein Modell in Ihrer primären Region optimiert haben, müssen Sie das Basismodell in den sekundären Regionen mit denselben Trainingsdaten neu trainieren. Führen Sie dann die oben genannten Schritte aus.