Odzyskiwanie po awarii włączone przez klienta
Ważne
Elementy oznaczone (wersja zapoznawcza) w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.
Aby zmaksymalizować czas pracy, zaplanuj ciągłość działania i przygotuj się do odzyskiwania po awarii za pomocą rozwiązania Azure AI Foundry. Ponieważ usługa Azure AI Foundry opiera się na architekturze usługi Azure Machine Learning, warto odwołać się do architektury fundamentalnej.
Firma Microsoft stara się zapewnić, że usługi platformy Azure są zawsze dostępne. Mogą jednak wystąpić nieplanowane awarie usług. Zalecamy utworzenie planu odzyskiwania po awarii na potrzeby obsługi awarii usług regionalnych. W tym artykule omówiono sposób wykonywania następujących zadań:
- Planowanie wdrożenia wielu regionów rozwiązania Azure AI Foundry i skojarzonych zasobów.
- Maksymalizuj szanse na odzyskanie dzienników, notesów, obrazów platformy Docker i innych metadanych.
- Projektowanie pod kątem wysokiej dostępności rozwiązania.
- Zainicjuj przejście w tryb failover do innego regionu.
Ważne
Sama usługa Azure AI Foundry nie zapewnia automatycznego przejścia w tryb failover ani odzyskiwania po awarii.
Omówienie usług platformy Azure dla usługi Azure AI Foundry
Usługa Azure AI Foundry zależy od wielu usług platformy Azure. Niektóre z tych usług są aprowizowania w ramach subskrypcji. Odpowiadasz za konfigurację tych usług o wysokiej dostępności. Firma Microsoft zarządza niektórymi usługami utworzonymi w ramach subskrypcji firmy Microsoft.
Usługi platformy Azure obejmują:
Infrastruktura rozwiązania Azure AI Foundry: środowisko zarządzane przez firmę Microsoft dla centrum i projektu usługi Azure AI Foundry. Dokument [podstawowa architektura](Dokumentacja architektury usługi Azure AI Foundry) jest dostarczany przez usługę Azure Machine Learning.
Wymagane skojarzone zasoby: zasoby aprowidowane w ramach subskrypcji podczas tworzenia centrum usługi Azure AI Foundry i projektu. Te zasoby obejmują usługi Azure Storage i Azure Key Vault.
- Magazyn domyślny zawiera dane, takie jak model, dane dziennika trenowania i odwołania do zasobów danych.
- Usługa Key Vault ma poświadczenia dla usługi Azure Storage i połączeń.
Opcjonalne skojarzone zasoby: zasoby, które można dołączyć do centrum usługi Azure AI Foundry. Te zasoby obejmują usługę Azure Container Registry i usługę Application Insights.
- Usługa Container Registry ma obraz platformy Docker do trenowania i wnioskowania środowisk.
- Usługa Application Insights służy do monitorowania rozwiązania Azure AI Foundry.
Wystąpienie obliczeniowe: zasób tworzony po wdrożeniu centrum. Środowiska programistyczne modelu zarządzanego przez firmę Microsoft.
Połączenia: usługa Azure AI Foundry może łączyć się z różnymi innymi usługami. Odpowiadasz za współtworzenie ustawień wysokiej dostępności.
W poniższej tabeli przedstawiono usługi platformy Azure zarządzane przez firmę Microsoft i zarządzane przez Ciebie. Wskazuje również usługi, które są domyślnie wysoce dostępne.
Usługa | Zarządzane przez | Wysoka dostępność domyślnie |
---|---|---|
Infrastruktura rozwiązania Azure AI Foundry | Microsoft | |
Skojarzone zasoby | ||
Azure Storage | Ty | |
Key Vault | Ty | ✓ |
Container Registry | Ty | |
Szczegółowe dane dotyczące aplikacji | Ty | NA |
Zasoby obliczeniowe | ||
Wystąpienie obliczeniowe | Microsoft | |
Wszelkie połączenia z usługami zewnętrznymi, takimi jak usługi Azure AI | Ty |
W pozostałej części tego artykułu opisano akcje, które należy wykonać, aby każda z tych usług były wysoce dostępne.
Planowanie wdrożenia w wielu regionach
Wdrożenie obejmujące wiele regionów polega na tworzeniu rozwiązania Azure AI Foundry i innych zasobów (infrastruktury) w dwóch regionach świadczenia usługi Azure. Jeśli wystąpi awaria regionalna, możesz przełączyć się do innego regionu. Podczas planowania miejsca wdrażania zasobów należy wziąć pod uwagę następujące kwestie:
Dostępność regionalna: jeśli to możliwe, użyj regionu w tym samym obszarze geograficznym, niekoniecznie takiego, który jest najbliżej. Aby sprawdzić dostępność regionalną rozwiązania Azure AI Foundry, zobacz Produkty platformy Azure według regionów.
Sparowane regiony platformy Azure: sparowane regiony koordynują aktualizacje platformy i ustalają priorytety działań związanych z odzyskiwaniem w razie potrzeby. Jednak nie wszystkie regiony obsługują sparowane regiony. Aby uzyskać więcej informacji, zobacz Regiony sparowane platformy Azure.
Dostępność usługi: zdecyduj, czy zasoby używane przez rozwiązanie powinny być gorące/gorące, gorące/ciepłe, czy gorące/zimne.
- Gorąca/gorąca: Oba regiony są aktywne w tym samym czasie, z jednym regionem gotowym do natychmiastowego rozpoczęcia korzystania.
- Gorąca/ciepła: Aktywny region podstawowy, region pomocniczy ma krytyczne zasoby (na przykład wdrożone modele) gotowe do uruchomienia. Zasoby niekrytyczne należy wdrożyć ręcznie w regionie pomocniczym.
- Gorąca/zimna: Aktywny region podstawowy, region pomocniczy ma wdrożony magazyn sztucznej inteligencji platformy Azure i inne zasoby wraz z wymaganymi danymi. Zasoby, takie jak modele, wdrożenia modelu lub potoki, muszą być wdrażane ręcznie.
Napiwek
W zależności od wymagań biznesowych możesz zdecydować się na różne zasoby usługi Azure AI Foundry w inny sposób.
Usługa Azure AI Foundry bazuje na innych usługach. Niektóre usługi można skonfigurować do replikacji do innych regionów. Inne osoby, które należy utworzyć ręcznie w wielu regionach. Poniższa tabela zawiera listę usług, które są odpowiedzialne za replikację oraz omówienie konfiguracji:
Usługa platformy Azure | Replikacja geograficzna przez | Konfigurowanie |
---|---|---|
Centrum i projekty usługi Azure AI Foundry | Ty | Utwórz centrum/projekty w wybranych regionach. |
Zasoby obliczeniowe usługi Azure AI Foundry | Ty | Utwórz zasoby obliczeniowe w wybranych regionach. W przypadku zasobów obliczeniowych, które mogą dynamicznie skalować, upewnij się, że oba regiony zapewniają wystarczający limit przydziału zasobów obliczeniowych dla Twoich potrzeb. |
Key Vault | Microsoft | Użyj tego samego wystąpienia usługi Key Vault z centrum Azure AI Foundry i zasobami w obu regionach. Usługa Key Vault automatycznie przełączy się w tryb failover do regionu pomocniczego. Aby uzyskać więcej informacji, zobacz Dostępność i nadmiarowość usługi Azure Key Vault. |
Konto magazynu | Ty | Usługa Azure Machine Learning nie obsługuje domyślnego trybu failover konta magazynu przy użyciu magazynu geograficznie nadmiarowego (GRS), magazynu geograficznie nadmiarowego strefowo nadmiarowego (GZRS), magazynu geograficznie nadmiarowego dostępnego do odczytu (RA-GRS) ani magazynu geograficznie nadmiarowego dostępnego do odczytu (RA-GZRS). Skonfiguruj konto magazynu zgodnie z potrzebami, a następnie użyj go dla centrum. Wszystkie kolejne projekty używają konta magazynu centrum. Aby uzyskać więcej informacji, zobacz Nadmiarowość usługi Azure Storage. |
Container Registry | Microsoft | Skonfiguruj wystąpienie usługi Container Registry w celu replikacji geograficznej rejestrów do sparowanego regionu dla usługi Azure AI Foundry. Użyj tego samego wystąpienia dla obu wystąpień centrum. Aby uzyskać więcej informacji, zobacz Replikacja geograficzna w usłudze Azure Container Registry. |
Szczegółowe dane dotyczące aplikacji | Ty | Utwórz usługę Application Insights dla centrum w obu regionach. Aby dostosować okres przechowywania danych i szczegóły, zobacz Zbieranie, przechowywanie i przechowywanie danych w usłudze Application Insights. |
Aby włączyć szybkie odzyskiwanie i ponowne uruchomienie w regionie pomocniczym, zalecamy następujące rozwiązania programistyczne:
- Użyj szablonów usługi Azure Resource Manager. Szablony to "infrastruktura jako kod" i umożliwiają szybkie wdrażanie usług w obu regionach.
- Aby uniknąć dryfu między dwoma regionami, zaktualizuj potoki ciągłej integracji i wdrażania w celu wdrożenia w obu regionach.
- Tworzenie przypisań ról dla użytkowników w obu regionach.
- Utwórz zasoby sieciowe, takie jak sieci wirtualne platformy Azure i prywatne punkty końcowe dla obu regionów. Upewnij się, że użytkownicy mają dostęp do obu środowisk sieciowych. Na przykład konfiguracje sieci VPN i DNS dla obu sieci wirtualnych.
Projektowanie na potrzeby wysokiej dostępności
Strefy dostępności
Niektóre usługi platformy Azure obsługują strefy dostępności. W przypadku regionów obsługujących strefy dostępności, jeśli strefa ulegnie awarii, a dane powinny zostać zapisane. Jednak dane są niedostępne do odświeżenia, dopóki strefa nie wróci do trybu online.
Aby uzyskać więcej informacji, zobacz Obsługa usługi strefy dostępności.
Wdrażanie krytycznych składników w wielu regionach
Określ poziom ciągłości działania, którego chcesz służyć. Poziom może się różnić między składnikami rozwiązania. Na przykład możesz chcieć mieć konfigurację gorącą/gorącą dla potoków produkcyjnych lub wdrożeń modeli oraz gorącą/zimną na potrzeby programowania.
Azure AI Foundry to usługa regionalna i przechowuje dane zarówno po stronie usługi, jak i na koncie magazynu w ramach subskrypcji. Jeśli wystąpi awaria regionalna, nie można odzyskać danych usługi. Można jednak odzyskać dane przechowywane przez usługę na koncie magazynu w ramach subskrypcji, biorąc pod uwagę nadmiarowość magazynu jest wymuszana. Przechowywane dane po stronie usługi to głównie metadane (tagi, nazwy zasobów, opisy). Przechowywane na koncie magazynu zwykle nie są metadanymi, na przykład przekazanymi danymi.
W przypadku połączeń zalecamy utworzenie dwóch oddzielnych zasobów w dwóch różnych regionach, a następnie utworzenie dwóch połączeń dla centrum. Jeśli na przykład usługi sztucznej inteligencji są krytycznym zasobem dla ciągłości działania, utworzenie dwóch zasobów usług sztucznej inteligencji i dwóch połączeń dla centrum będzie dobrą strategią ciągłości działania. W przypadku tej konfiguracji, jeśli jeden region ulegnie awarii, nadal działa jeden region.
W przypadku wszystkich centrów, które są niezbędne do ciągłości działania, wdróż zasoby w dwóch regionach.
Wydzielona pamięć masowa
W scenariuszu, w którym nawiązujesz połączenie z danymi w celu dostosowania aplikacji sztucznej inteligencji, zazwyczaj zestawy danych mogą być używane w usłudze Azure AI, ale także poza usługą Azure AI. Wolumin zestawu danych może być dość duży, dlatego dobrym rozwiązaniem może być przechowywanie tych danych na osobnym koncie magazynu. Oceń, jaka strategia replikacji danych ma największy sens w przypadku użycia.
W portalu Azure AI Foundry utwórz połączenie z danymi. Jeśli masz wiele wystąpień usługi Azure AI Foundry w różnych regionach, nadal możesz wskazać to samo konto magazynu, ponieważ połączenia działają w różnych regionach.
Inicjowanie trybu failover
Kontynuuj pracę w centrum trybu failover
Gdy centrum podstawowe stanie się niedostępne, możesz przełączyć się do pomocniczego centrum, aby kontynuować programowanie. Usługa Azure AI Foundry nie przesyła automatycznie zadań do centrum pomocniczego, jeśli wystąpi awaria. Zaktualizuj konfigurację kodu, aby wskazywała nowe zasoby centrum lub projektu. Zalecamy unikanie odwoływania się do koncentratora lub odwołań do projektu.
Usługa Azure AI Foundry nie może synchronizować ani odzyskiwać artefaktów ani metadanych między koncentratorami. W zależności od strategii wdrażania aplikacji może być konieczne przeniesienie lub ponowne utworzenie artefaktów w centrum trybu failover, aby kontynuować. W przypadku skonfigurowania centrum podstawowego i pomocniczego w celu udostępniania skojarzonych zasobów z włączoną replikacją geograficzną niektóre obiekty mogą być dostępne bezpośrednio w centrum trybu failover. Jeśli na przykład oba centra współdzielą te same obrazy platformy Docker, skonfigurowane magazyny danych i zasoby usługi Azure Key Vault.
Uwaga
Wszystkie zadania uruchomione w przypadku awarii usługi nie zostaną automatycznie przełączene do pomocniczego centrum. Jest również mało prawdopodobne, że zadania zostaną wznowione i zakończone pomyślnie w centrum podstawowym po rozwiązaniu awarii. Zamiast tego należy ponownie przesłać te zadania w centrum pomocniczym lub w podstawowym (po rozwiązaniu awarii).
Opcje odzyskiwania
Usuwanie zasobów
Jeśli centrum i jego istniejące zasoby zostaną przypadkowo usunięte, istnieją pewne zasoby, które mają włączone usuwanie nietrwałe, co umożliwia odzyskiwanie zasobów. Centra i projekty nie obsługują usuwania nietrwałego. Nie można odzyskać usuniętego centrum lub projektu. Niektóre zasoby bazowe mogą obsługiwać usuwanie nietrwałe, więc potencjalnie można je odzyskać. Zobacz tabelę, dla której usługi mają opcję usuwania nietrwałego.
Usługa | włączono usuwanie nietrwałe |
---|---|
Centrum usługi Azure AI Foundry | Nieobsługiwane |
Projekt rozwiązania Azure AI Foundry | Nieobsługiwane |
Zasób usług Azure AI Services | Tak |
Azure Storage | Zobacz Odzyskiwanie usuniętego konta magazynu. |
Azure Key Vault | Tak |
Następne kroki
- Aby dowiedzieć się więcej o bezpiecznych wdrożeniach infrastruktury za pomocą rozwiązania Azure AI Foundry, zobacz Tworzenie bezpiecznego centrum.
- Aby uzyskać informacje o umowie SLA, zobacz umowy dotyczące poziomu usług platformy Azure.