Udostępnij za pośrednictwem


Odzyskiwanie po awarii włączone przez klienta

Ważne

Elementy oznaczone (wersja zapoznawcza) w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Aby zmaksymalizować czas pracy, zaplanuj ciągłość działania i przygotuj się do odzyskiwania po awarii za pomocą rozwiązania Azure AI Foundry. Ponieważ usługa Azure AI Foundry opiera się na architekturze usługi Azure Machine Learning, warto odwołać się do architektury fundamentalnej.

Firma Microsoft stara się zapewnić, że usługi platformy Azure są zawsze dostępne. Mogą jednak wystąpić nieplanowane awarie usług. Zalecamy utworzenie planu odzyskiwania po awarii na potrzeby obsługi awarii usług regionalnych. W tym artykule omówiono sposób wykonywania następujących zadań:

  • Planowanie wdrożenia wielu regionów rozwiązania Azure AI Foundry i skojarzonych zasobów.
  • Maksymalizuj szanse na odzyskanie dzienników, notesów, obrazów platformy Docker i innych metadanych.
  • Projektowanie pod kątem wysokiej dostępności rozwiązania.
  • Zainicjuj przejście w tryb failover do innego regionu.

Ważne

Sama usługa Azure AI Foundry nie zapewnia automatycznego przejścia w tryb failover ani odzyskiwania po awarii.

Omówienie usług platformy Azure dla usługi Azure AI Foundry

Usługa Azure AI Foundry zależy od wielu usług platformy Azure. Niektóre z tych usług są aprowizowania w ramach subskrypcji. Odpowiadasz za konfigurację tych usług o wysokiej dostępności. Firma Microsoft zarządza niektórymi usługami utworzonymi w ramach subskrypcji firmy Microsoft.

Usługi platformy Azure obejmują:

  • Infrastruktura rozwiązania Azure AI Foundry: środowisko zarządzane przez firmę Microsoft dla centrum i projektu usługi Azure AI Foundry. Dokument [podstawowa architektura](Dokumentacja architektury usługi Azure AI Foundry) jest dostarczany przez usługę Azure Machine Learning.

  • Wymagane skojarzone zasoby: zasoby aprowidowane w ramach subskrypcji podczas tworzenia centrum usługi Azure AI Foundry i projektu. Te zasoby obejmują usługi Azure Storage i Azure Key Vault.

    • Magazyn domyślny zawiera dane, takie jak model, dane dziennika trenowania i odwołania do zasobów danych.
    • Usługa Key Vault ma poświadczenia dla usługi Azure Storage i połączeń.
  • Opcjonalne skojarzone zasoby: zasoby, które można dołączyć do centrum usługi Azure AI Foundry. Te zasoby obejmują usługę Azure Container Registry i usługę Application Insights.

    • Usługa Container Registry ma obraz platformy Docker do trenowania i wnioskowania środowisk.
    • Usługa Application Insights służy do monitorowania rozwiązania Azure AI Foundry.
  • Wystąpienie obliczeniowe: zasób tworzony po wdrożeniu centrum. Środowiska programistyczne modelu zarządzanego przez firmę Microsoft.

  • Połączenia: usługa Azure AI Foundry może łączyć się z różnymi innymi usługami. Odpowiadasz za współtworzenie ustawień wysokiej dostępności.

W poniższej tabeli przedstawiono usługi platformy Azure zarządzane przez firmę Microsoft i zarządzane przez Ciebie. Wskazuje również usługi, które są domyślnie wysoce dostępne.

Usługa Zarządzane przez Wysoka dostępność domyślnie
Infrastruktura rozwiązania Azure AI Foundry Microsoft
Skojarzone zasoby
Azure Storage Ty
Key Vault Ty
Container Registry Ty
Szczegółowe dane dotyczące aplikacji Ty NA
Zasoby obliczeniowe
Wystąpienie obliczeniowe Microsoft
Wszelkie połączenia z usługami zewnętrznymi, takimi jak usługi Azure AI Ty

W pozostałej części tego artykułu opisano akcje, które należy wykonać, aby każda z tych usług były wysoce dostępne.

Planowanie wdrożenia w wielu regionach

Wdrożenie obejmujące wiele regionów polega na tworzeniu rozwiązania Azure AI Foundry i innych zasobów (infrastruktury) w dwóch regionach świadczenia usługi Azure. Jeśli wystąpi awaria regionalna, możesz przełączyć się do innego regionu. Podczas planowania miejsca wdrażania zasobów należy wziąć pod uwagę następujące kwestie:

  • Dostępność regionalna: jeśli to możliwe, użyj regionu w tym samym obszarze geograficznym, niekoniecznie takiego, który jest najbliżej. Aby sprawdzić dostępność regionalną rozwiązania Azure AI Foundry, zobacz Produkty platformy Azure według regionów.

  • Sparowane regiony platformy Azure: sparowane regiony koordynują aktualizacje platformy i ustalają priorytety działań związanych z odzyskiwaniem w razie potrzeby. Jednak nie wszystkie regiony obsługują sparowane regiony. Aby uzyskać więcej informacji, zobacz Regiony sparowane platformy Azure.

  • Dostępność usługi: zdecyduj, czy zasoby używane przez rozwiązanie powinny być gorące/gorące, gorące/ciepłe, czy gorące/zimne.

    • Gorąca/gorąca: Oba regiony są aktywne w tym samym czasie, z jednym regionem gotowym do natychmiastowego rozpoczęcia korzystania.
    • Gorąca/ciepła: Aktywny region podstawowy, region pomocniczy ma krytyczne zasoby (na przykład wdrożone modele) gotowe do uruchomienia. Zasoby niekrytyczne należy wdrożyć ręcznie w regionie pomocniczym.
    • Gorąca/zimna: Aktywny region podstawowy, region pomocniczy ma wdrożony magazyn sztucznej inteligencji platformy Azure i inne zasoby wraz z wymaganymi danymi. Zasoby, takie jak modele, wdrożenia modelu lub potoki, muszą być wdrażane ręcznie.

Napiwek

W zależności od wymagań biznesowych możesz zdecydować się na różne zasoby usługi Azure AI Foundry w inny sposób.

Usługa Azure AI Foundry bazuje na innych usługach. Niektóre usługi można skonfigurować do replikacji do innych regionów. Inne osoby, które należy utworzyć ręcznie w wielu regionach. Poniższa tabela zawiera listę usług, które są odpowiedzialne za replikację oraz omówienie konfiguracji:

Usługa platformy Azure Replikacja geograficzna przez Konfigurowanie
Centrum i projekty usługi Azure AI Foundry Ty Utwórz centrum/projekty w wybranych regionach.
Zasoby obliczeniowe usługi Azure AI Foundry Ty Utwórz zasoby obliczeniowe w wybranych regionach. W przypadku zasobów obliczeniowych, które mogą dynamicznie skalować, upewnij się, że oba regiony zapewniają wystarczający limit przydziału zasobów obliczeniowych dla Twoich potrzeb.
Key Vault Microsoft Użyj tego samego wystąpienia usługi Key Vault z centrum Azure AI Foundry i zasobami w obu regionach. Usługa Key Vault automatycznie przełączy się w tryb failover do regionu pomocniczego. Aby uzyskać więcej informacji, zobacz Dostępność i nadmiarowość usługi Azure Key Vault.
Konto magazynu Ty Usługa Azure Machine Learning nie obsługuje domyślnego trybu failover konta magazynu przy użyciu magazynu geograficznie nadmiarowego (GRS), magazynu geograficznie nadmiarowego strefowo nadmiarowego (GZRS), magazynu geograficznie nadmiarowego dostępnego do odczytu (RA-GRS) ani magazynu geograficznie nadmiarowego dostępnego do odczytu (RA-GZRS). Skonfiguruj konto magazynu zgodnie z potrzebami, a następnie użyj go dla centrum. Wszystkie kolejne projekty używają konta magazynu centrum. Aby uzyskać więcej informacji, zobacz Nadmiarowość usługi Azure Storage.
Container Registry Microsoft Skonfiguruj wystąpienie usługi Container Registry w celu replikacji geograficznej rejestrów do sparowanego regionu dla usługi Azure AI Foundry. Użyj tego samego wystąpienia dla obu wystąpień centrum. Aby uzyskać więcej informacji, zobacz Replikacja geograficzna w usłudze Azure Container Registry.
Szczegółowe dane dotyczące aplikacji Ty Utwórz usługę Application Insights dla centrum w obu regionach. Aby dostosować okres przechowywania danych i szczegóły, zobacz Zbieranie, przechowywanie i przechowywanie danych w usłudze Application Insights.

Aby włączyć szybkie odzyskiwanie i ponowne uruchomienie w regionie pomocniczym, zalecamy następujące rozwiązania programistyczne:

  • Użyj szablonów usługi Azure Resource Manager. Szablony to "infrastruktura jako kod" i umożliwiają szybkie wdrażanie usług w obu regionach.
  • Aby uniknąć dryfu między dwoma regionami, zaktualizuj potoki ciągłej integracji i wdrażania w celu wdrożenia w obu regionach.
  • Tworzenie przypisań ról dla użytkowników w obu regionach.
  • Utwórz zasoby sieciowe, takie jak sieci wirtualne platformy Azure i prywatne punkty końcowe dla obu regionów. Upewnij się, że użytkownicy mają dostęp do obu środowisk sieciowych. Na przykład konfiguracje sieci VPN i DNS dla obu sieci wirtualnych.

Projektowanie na potrzeby wysokiej dostępności

Strefy dostępności

Niektóre usługi platformy Azure obsługują strefy dostępności. W przypadku regionów obsługujących strefy dostępności, jeśli strefa ulegnie awarii, a dane powinny zostać zapisane. Jednak dane są niedostępne do odświeżenia, dopóki strefa nie wróci do trybu online.

Aby uzyskać więcej informacji, zobacz Obsługa usługi strefy dostępności.

Wdrażanie krytycznych składników w wielu regionach

Określ poziom ciągłości działania, którego chcesz służyć. Poziom może się różnić między składnikami rozwiązania. Na przykład możesz chcieć mieć konfigurację gorącą/gorącą dla potoków produkcyjnych lub wdrożeń modeli oraz gorącą/zimną na potrzeby programowania.

Azure AI Foundry to usługa regionalna i przechowuje dane zarówno po stronie usługi, jak i na koncie magazynu w ramach subskrypcji. Jeśli wystąpi awaria regionalna, nie można odzyskać danych usługi. Można jednak odzyskać dane przechowywane przez usługę na koncie magazynu w ramach subskrypcji, biorąc pod uwagę nadmiarowość magazynu jest wymuszana. Przechowywane dane po stronie usługi to głównie metadane (tagi, nazwy zasobów, opisy). Przechowywane na koncie magazynu zwykle nie są metadanymi, na przykład przekazanymi danymi.

W przypadku połączeń zalecamy utworzenie dwóch oddzielnych zasobów w dwóch różnych regionach, a następnie utworzenie dwóch połączeń dla centrum. Jeśli na przykład usługi sztucznej inteligencji są krytycznym zasobem dla ciągłości działania, utworzenie dwóch zasobów usług sztucznej inteligencji i dwóch połączeń dla centrum będzie dobrą strategią ciągłości działania. W przypadku tej konfiguracji, jeśli jeden region ulegnie awarii, nadal działa jeden region.

W przypadku wszystkich centrów, które są niezbędne do ciągłości działania, wdróż zasoby w dwóch regionach.

Wydzielona pamięć masowa

W scenariuszu, w którym nawiązujesz połączenie z danymi w celu dostosowania aplikacji sztucznej inteligencji, zazwyczaj zestawy danych mogą być używane w usłudze Azure AI, ale także poza usługą Azure AI. Wolumin zestawu danych może być dość duży, dlatego dobrym rozwiązaniem może być przechowywanie tych danych na osobnym koncie magazynu. Oceń, jaka strategia replikacji danych ma największy sens w przypadku użycia.

W portalu Azure AI Foundry utwórz połączenie z danymi. Jeśli masz wiele wystąpień usługi Azure AI Foundry w różnych regionach, nadal możesz wskazać to samo konto magazynu, ponieważ połączenia działają w różnych regionach.

Inicjowanie trybu failover

Kontynuuj pracę w centrum trybu failover

Gdy centrum podstawowe stanie się niedostępne, możesz przełączyć się do pomocniczego centrum, aby kontynuować programowanie. Usługa Azure AI Foundry nie przesyła automatycznie zadań do centrum pomocniczego, jeśli wystąpi awaria. Zaktualizuj konfigurację kodu, aby wskazywała nowe zasoby centrum lub projektu. Zalecamy unikanie odwoływania się do koncentratora lub odwołań do projektu.

Usługa Azure AI Foundry nie może synchronizować ani odzyskiwać artefaktów ani metadanych między koncentratorami. W zależności od strategii wdrażania aplikacji może być konieczne przeniesienie lub ponowne utworzenie artefaktów w centrum trybu failover, aby kontynuować. W przypadku skonfigurowania centrum podstawowego i pomocniczego w celu udostępniania skojarzonych zasobów z włączoną replikacją geograficzną niektóre obiekty mogą być dostępne bezpośrednio w centrum trybu failover. Jeśli na przykład oba centra współdzielą te same obrazy platformy Docker, skonfigurowane magazyny danych i zasoby usługi Azure Key Vault.

Uwaga

Wszystkie zadania uruchomione w przypadku awarii usługi nie zostaną automatycznie przełączene do pomocniczego centrum. Jest również mało prawdopodobne, że zadania zostaną wznowione i zakończone pomyślnie w centrum podstawowym po rozwiązaniu awarii. Zamiast tego należy ponownie przesłać te zadania w centrum pomocniczym lub w podstawowym (po rozwiązaniu awarii).

Opcje odzyskiwania

Usuwanie zasobów

Jeśli centrum i jego istniejące zasoby zostaną przypadkowo usunięte, istnieją pewne zasoby, które mają włączone usuwanie nietrwałe, co umożliwia odzyskiwanie zasobów. Centra i projekty nie obsługują usuwania nietrwałego. Nie można odzyskać usuniętego centrum lub projektu. Niektóre zasoby bazowe mogą obsługiwać usuwanie nietrwałe, więc potencjalnie można je odzyskać. Zobacz tabelę, dla której usługi mają opcję usuwania nietrwałego.

Usługa włączono usuwanie nietrwałe
Centrum usługi Azure AI Foundry Nieobsługiwane
Projekt rozwiązania Azure AI Foundry Nieobsługiwane
Zasób usług Azure AI Services Tak
Azure Storage Zobacz Odzyskiwanie usuniętego konta magazynu.
Azure Key Vault Tak

Następne kroki