Udostępnij za pośrednictwem


Zalecenia dotyczące zarządzania obciążeniami sztucznej inteligencji w infrastrukturze platformy Azure (IaaS)

Ten artykuł zawiera zalecenia dotyczące zarządzania dla organizacji z obciążeniami sztucznej inteligencji w infrastrukturze platformy Azure (IaaS). Efektywne zarządzanie obciążeniami sztucznej inteligencji na platformie Azure wymaga ciągłego monitorowania, praktyk optymalizacji oraz silnej strategii tworzenia kopii zapasowych i odzyskiwania. Te wysiłki minimalizują przestoje i zapewniają niezawodność operacji sztucznej inteligencji.

Monitorowanie infrastruktury sztucznej inteligencji

Monitorowanie infrastruktury sztucznej inteligencji obejmuje śledzenie i ocenianie wydajności, kondycji i dostępności wszystkich składników we wdrożeniu sztucznej inteligencji w usłudze Azure IaaS. Proaktywne monitorowanie umożliwia organizacjom wykrywanie i rozwiązywanie potencjalnych problemów przed ich wpływem na operacje.

  • Upewnij się, że monitorowanie jest domyślnie. Wdróż wymaganych agentów usługi Azure Monitor dla maszyn wirtualnych i zestawów skalowania maszyn wirtualnych platformy Azure, w tym serwerów połączonych z usługą Azure Arc. Połącz je z centralnym obszarem roboczym usługi Log Analytics w subskrypcji zarządzania. Rozważ użycie alertów linii bazowej usługi Azure Monitor (AMBA).

  • Użyj usługi Azure Update Manager. Z poziomu jednego okienka zarządzania można monitorować zgodność aktualizacji systemów Windows i Linux na maszynach na platformie Azure oraz lokalnie/na innych platformach w chmurze (połączonych za pomocą usługi Azure Arc). Za pomocą menedżera aktualizacji platformy Azure można wprowadzać aktualizacje w czasie rzeczywistym lub planować je w ramach zdefiniowanego okna obsługi.

  • Monitorowanie maszyn wirtualnych.Monitorowanie danych hosta maszyny wirtualnej (hosta fizycznego) i danych gościa maszyny wirtualnej (systemu operacyjnego i aplikacji). Rozważ użycie usługi VM Insights , aby uprościć dołączanie, uzyskiwać dostęp do wstępnie zdefiniowanych wykresów wydajności i korzystać z mapowania zależności. Śledzenie eksmisji maszyn wirtualnych typu spot i zdarzeń konserwacji w celu efektywnego zarządzania przerwami. Dowiedz się więcej o zaplanowanych zdarzeniach.

  • Monitorowanie sieci.Monitorowanie i diagnozowanie problemów z siecią bez logowania się do maszyn wirtualnych. Uzyskiwanie informacji o wydajności w czasie rzeczywistym na poziomie pakietu. Rozwiązywanie problemów z wydajnością za pomocą narzędzia diagnostyki wydajności. Śledzenie topologii, kondycji i metryk dla wszystkich wdrożonych zasobów sieciowych.

  • Monitorowanie magazynu. Monitoruj wydajność magazynu, na przykład lokalne dyski SSD, dołączone dyski, udziały plików i konta usługi Azure Storage.

  • Korzystanie z funkcji monitorowania orkiestratora (jeśli dotyczy). Rozważ użycie wbudowanych funkcji monitorowania koordynatorów, takich jak Azure CycleCloud, Azure Batch i Azure Kubernetes Service (AKS). Postępuj zgodnie ze wskazówkami dotyczącymi wybranego koordynatora:

    • Azure CycleCloud lub Azure CycleCloud Workspace for Slurm: Śledzenie metryk procesora CPU, dysku i sieci. Przechowywanie danych z klastrów Usługi Azure CycleCloud do usługi Log Analytics i tworzenie niestandardowych pulpitów nawigacyjnych metryk. Aby uzyskać więcej informacji, zobacz Monitorowanie usługi Azure CycleCloud. Testy kondycji węzła to zestaw testów automatycznych zapewniający, że sprzęt HPC/AI jest w dobrej kondycji. Możesz uruchomić to zaewidencjonowanie w usłudze Azure CycleCloud w ramach wdrożenia klastra lub oddzielnie, korzystając z instrukcji repozytorium GitHub. Upewnij się, że zwracasz uwagę na macierz zgodności w dokumentacji. Uruchom polecenie tam, gdzie jest to właściwe, aby upewnić się, że przed uruchomieniem obciążeń sztucznej inteligencji należy zidentyfikować wszystkie węzły w złej kondycji.

    • Azure Batch: zbieranie metryk zadań i zadań, takich jak aktywne zadania, czas trwania zadania, czas rozpoczęcia zadania, czas trwania, czas rozpoczęcia zadania. Zbieraj również metryki puli, takie jak węzły bezczynne, uruchomione węzły, użycie procesora CPU, operacje we/wy dysku. Aby uzyskać więcej informacji, zobacz Monitorowanie usługi Azure Batch.

    • Azure Kubernetes Service. Używanie usługi Azure Monitor dla kontenerów. Monitorowanie wydajności zasobnika, kondycji węzła i wykorzystania zasobów. Konfigurowanie alertów i niestandardowych pulpitów nawigacyjnych.

Zarządzanie ciągłością działalności biznesowej i odzyskiwaniem po awarii

Zarządzanie ciągłością biznesową i odzyskiwaniem po awarii dla aplikacji sztucznej inteligencji na platformie Azure zapewnia, że organizacje mogą szybko odzyskać sprawność po zakłóceniach. Wdrażając strategie, takie jak replikacja w czasie rzeczywistym, automatyczne odzyskiwanie i regularne kopie zapasowe, organizacje chronią infrastrukturę sztucznej inteligencji przed utratą danych i przestojami operacyjnymi.

  • Użyj usługi Azure Site Recovery. Usługa Site Recovery używa replikacji i automatyzacji odzyskiwania w czasie rzeczywistym do replikowania obciążeń między regionami. Wbudowane możliwości platformy dla obciążeń maszyn wirtualnych spełniają wymagania dotyczące niskiego celu punktu odzyskiwania i celu odzyskiwania. Usługa Site Recovery umożliwia uruchamianie próbnych odzyskiwania bez wpływu na obciążenia produkcyjne. Możesz również użyć usługi Azure Policy, aby włączyć replikację i przeprowadzić inspekcję ochrony maszyn wirtualnych.

  • Korzystanie z funkcji orkiestratora (jeśli dotyczy). Użyj orkiestratora, aby odzyskać węzły obliczeniowe, które zakończyły się niepowodzeniem. Na przykład skonfiguruj usługę Azure Batch, aby automatycznie ponawiać próby podzadań w przypadku awarii.

  • Planowanie kopii zapasowych. Ustal, czy chcesz tworzyć kopie zapasowe przyrostowych zmian w zestawach danych i modelach codziennie lub co tydzień. Kopie zapasowe mogą również obejmować bazy danych lub całe zestawy danych.

  • Zapewnianie zgodności danych. Upewnij się, że strategia tworzenia kopii zapasowych jest zgodna z przepisami dotyczącymi ochrony danych. Zgodność z wymaganiami dotyczącymi rezydencji danych i przechowywaniem kopii zapasowych w odpowiednich lokalizacjach geograficznych.

  • Tworzenie migawek. Do tworzenia migawek możesz użyć funkcji harmonogramu. Na przykład usługa CycleCloud może wykonywać migawki punktu w czasie bazowego magazynu danych aplikacji jako punkty odzyskiwania.

Następny krok