Zalecenia dotyczące ładu dla obciążeń sztucznej inteligencji w infrastrukturze platformy Azure (IaaS)

Artykuł
11/01/2024

Ten artykuł zawiera zalecenia dotyczące ładu dla organizacji z obciążeniami sztucznej inteligencji w infrastrukturze platformy Azure (IaaS). Te zalecenia pomagają organizacjom ustanowić strukturę zarządzania zasobami, kontroli kosztów, zabezpieczeń i wydajności operacyjnej. Postępując zgodnie z tymi rozwiązaniami, możesz odpowiedzialnie skalować obciążenia sztucznej inteligencji i zapewnić ich zgodność, bezpieczeństwo i cele finansowe.

Nadzór nad zasobami

Nadzór nad zasobami ustanawia reguły i standardy zarządzania zasobami platformy Azure. Wymuszając zasady ładu, organizacje mogą zapewnić zgodność, standaryzację użycia zasobów i kontrolę kosztów, które obsługują odpowiedzialne skalowanie operacji sztucznej inteligencji.

Wymuszanie użycia tagów. Użyj usługi Azure Policy, aby wymusić reguły, takie jak lokalizacja zasobu, dozwolone jednostki SKU i obowiązkowe tagi. Na przykład utwórz zasady, aby ograniczyć wdrażanie niektórych maszyn wirtualnych o wysokich kosztach, pomagając efektywnie zarządzać budżetami.
Stosowanie zasad ładu w celu zapewnienia zgodności i standaryzacji. Użyj usługi Azure Policy, aby wymusić reguły, takie jak lokalizacja zasobu, dozwolone jednostki SKU i obowiązkowe tagi. Na przykład utwórz zasady, aby ograniczyć wdrażanie niektórych maszyn wirtualnych o wysokich kosztach w celu kontrolowania budżetu.
Użyj grup zasobów do zarządzania cyklem życia. Wdrażanie zasobów sztucznej inteligencji w grupach zasobów, które mają wspólny cykl życia. Grupy zasobów umożliwiają zbiorcze wdrażanie, konfigurowanie i usuwanie zasobów. Zapewniają one również dodatkowe granice ładu (zasady), zabezpieczenia (RBAC) i koszty (budżet).
Standaryzacja konwencji nazewnictwa. Zaimplementuj ustandaryzowaną konwencję nazewnictwa dla zasobów sztucznej inteligencji. Ta praktyka poprawia śledzenie i zarządzanie. Użyj reguł i ograniczeń nazewnictwa dla każdego zasobu platformy Azure i postępuj zgodnie z zalecanymi skrótami, ponieważ wiele zasobów często ma ograniczenia dotyczące długości nazw.
Zarządzanie infrastrukturą jako kodem. Użyj Microsoft Defender dla Chmury do monitorowania i wymuszania zabezpieczeń IaC. To narzędzie pomaga wykrywać błędy konfiguracji IaC i zapewnia bezpieczne wdrożenia.

Zarządzanie kosztami

Usługa Cost Management monitoruje i kontroluje wydatki związane z obciążeniami sztucznej inteligencji na platformie Azure. Efektywne zarządzanie kosztami umożliwia organizacjom ustawianie budżetów, śledzenie wydatków i utrzymanie stabilności finansowej dla projektów sztucznej inteligencji.

Użyj tagów, aby przydzielić koszty. Skonfiguruj definicję usługi Azure Policy, aby wymusić tagowanie zasobów. Tagi umożliwiają kategoryzowanie zasobów według projektu, centrum kosztów, środowiska i właściciela w celu lepszego zarządzania i rozliczeń.
Użyj dziedziczenia tagów. Użyj dziedziczenia tagów w usłudze Cost Management, aby zastosować rozliczenia, grupę zasobów i tagi subskrypcji do podrzędnych rekordów użycia zasobów.
Zarządzanie kontami rozliczeniowymi. Użyj rozliczeń firmy Microsoft, aby nadzorować konta rozliczeniowe i obsługiwać faktury. Przypisz konto rozliczeniowe do każdego projektu lub zespołu sztucznej inteligencji, aby ułatwić dokładne śledzenie wydatków.
Monitorowanie kosztów. Użyj usługi Microsoft Cost Management , aby ustawić alerty budżetowe, alerty dotyczące anomalii kosztów i zaplanowane alerty. Monitorowanie kosztów w ten sposób pomaga organizacjom utrzymać dyscyplinę finansową.
Wyświetlanie wzorców wydatków. Użyj narzędzia Analiza kosztów platformy Azure, aby regularnie przeglądać wzorce wydatków. Ten proces identyfikuje trendy i ujawnia obszary potencjalnych oszczędności, zwłaszcza w przypadku użycia maszyn wirtualnych.
Zezwalaj na określone jednostki SKU maszyny wirtualnej. Użyj usługi Azure Policy, aby zezwolić tylko na jednostki SKU maszyn wirtualnych zgodne z budżetem sztucznej inteligencji. Wbudowana definicja zasad Dozwolone jednostki SKU maszyn wirtualnych mogą wymuszać tę kontrolkę.
Rozważ skalowanie automatyczne. Użyj zestawu skalowania maszyn wirtualnych, aby dynamicznie dostosowywać liczbę maszyn wirtualnych na podstawie zapotrzebowania, optymalizując koszty.
Skonfiguruj automatyczne przeshutdown maszyny wirtualnej. Użyj funkcji autoshutdown, aby zaplanować zamykanie maszyn wirtualnych poza godzinami pracy, co zmniejsza niepotrzebne koszty.

Nadzór nad zabezpieczeniami

Ład zabezpieczeń eliminuje potrzebę niezawodnych środków ochrony w obciążeniach sztucznej inteligencji. Implementując zasady zabezpieczeń i mechanizmy kontroli dostępu, organizacje mogą chronić poufne dane i zasoby. Zmniejsza ryzyko i obsługuje bezpieczne środowisko sztucznej inteligencji na platformie Azure.

Integracja z identyfikatorem Entra firmy Microsoft. Użyj identyfikatora Entra firmy Microsoft do scentralizowanego zarządzania tożsamościami i możliwości logowania jednokrotnego (SSO) w obciążeniach sztucznej inteligencji.
Zaimplementuj odrębne mechanizmy kontroli dostępu dla każdego środowiska. Ogranicz tożsamość każdego potoku wdrażania do wyznaczonego środowiska, co zmniejsza ryzyko przypadkowego wdrożenia.
Włącz usługę Azure Defender. Aktywuj usługę Azure Defender w celu zaawansowanej ochrony przed zagrożeniami. Usługa Azure Defender zwiększa bezpieczeństwo obciążeń, w tym maszyn wirtualnych, kont magazynu i baz danych, promując niezawodny stan zabezpieczeń obciążeń sztucznej inteligencji.

Nadzór operacyjny

Ład operacyjny zapewnia spójne monitorowanie obciążeń sztucznej inteligencji i zarządzanie nimi. Dzięki narzędziom do monitorowania, zgłaszania alertów i zautomatyzowanych wdrożeń organizacje mogą utrzymywać kondycję systemu, wykrywać problemy wcześnie i poprawiać wydajność operacyjną, przyczyniając się do niezawodnych i stabilnych operacji sztucznej inteligencji.

Wdrażanie agentów monitorowania. Upewnij się, że agenci usługi Azure Monitor są domyślnie wdrażani dla maszyn wirtualnych, zestawów skalowania maszyn wirtualnych platformy Azure i serwerów połączonych z usługą Azure Arc. Połącz je z centralnym obszarem roboczym usługi Log Analytics w ramach subskrypcji zarządzania.
Konfigurowanie alertów. Włącz zalecane reguły alertów, aby otrzymywać powiadomienia o odchyleniach metryk.
Użyj potoku ciągłej integracji/ciągłego wdrażania. Zaimplementuj ciągłą integrację i ciągłe dostarczanie (CI/CD), aby zautomatyzować testowanie i wdrażanie kodu w różnych środowiskach.

Następny krok

Zarządzanie sztuczną inteligencją IaaS

Udostępnij za pośrednictwem