Udostępnij za pośrednictwem


Zarządzanie sztuczną inteligencją — proces zarządzania sztuczną inteligencją

W tym artykule opisano proces organizacyjny zarządzania obciążeniami sztucznej inteligencji. Zawiera on zalecenia dotyczące zarządzania obciążeniami sztucznej inteligencji na podstawie programowania, wdrażania i operacji. Efektywne zarządzanie sztuczną inteligencją wymaga ustrukturyzowanego podejścia od programowania poprzez wdrażanie i bieżące operacje. Firmy potrzebują ustandaryzowanych praktyk i regularnego monitorowania, aby zapobiec problemom, takim jak dryf danych i modelu, zapewniając, że sztuczna inteligencja pozostaje dokładna i niezawodna w czasie.

Diagram przedstawiający proces wdrażania sztucznej inteligencji: strategia sztucznej inteligencji, plan sztucznej inteligencji, gotowość do sztucznej inteligencji, zarządzanie sztuczną inteligencją, zarządzanie sztuczną inteligencją i bezpieczna sztuczna inteligencja.

Zarządzanie operacjami sztucznej inteligencji

Zarządzanie operacjami sztucznej inteligencji zapewnia widoczność i spójność w całym cyklu życia sztucznej inteligencji. Wdrożenie platform operacyjnych, takich jak MLOps, tworzenie środowisk piaskownicy i ustanawianie potoków ciągłej integracji/ciągłego wdrażania, umożliwia nadzorowanie programowania, testowania i wdrażania.

  • Wdrażanie struktury operacyjnej sztucznej inteligencji. Zaimplementuj struktury MLOps (operacje uczenia maszynowego) dla tradycyjnych przepływów pracy uczenia maszynowego i metodyki GenAIOps na potrzeby generowania obciążeń sztucznej inteligencji. Te struktury operacyjne organizują pełny cykl tworzenia sztucznej inteligencji. Każda struktura ma wpływ na podejście i narzędzia zespołu ds. obciążeń. Aby uzyskać więcej informacji, zobacz MLOps i GenAIOps.

  • Standaryzacja narzędzi programistycznych sztucznej inteligencji. Definiowanie i standaryzacja użycia zestawów SDK i interfejsów API w celu zapewnienia spójności w zespołach programistycznych. Narzędzia, takie jak zestaw Azure SDK dla obciążeń sztucznej inteligencji, udostępniają biblioteki i interfejsy API zoptymalizowane pod kątem skalowania modeli sztucznej inteligencji i integrowania ich z aplikacjami. W przypadku generowania sztucznej inteligencji należy standaryzacji platformy sztucznej inteligencji i orkiestratorów, takich jak Semantic Kernel, LangChain i Prompt Flow.

  • Używanie środowiska piaskownicy do eksperymentowania ze sztuczną inteligencją. Używanie środowiska piaskownicy do eksperymentowania z modelem sztucznej inteligencji. Chcesz zapewnić spójność w środowiskach deweloperskich, testowych i prod. Dlatego środowisko piaskownicy powinno być różne od środowisk deweloperskich, testowych i produkcyjnych w cyklu projektowania sztucznej inteligencji. Jeśli zmienisz modele wdrażania i ładu między środowiskami deweloperskimi, testowymi i prod, może on ukrywać i wprowadzać zmiany powodujące niezgodność.

  • Ustanów potoki ciągłej integracji i ciągłego dostarczania na potrzeby wdrażania. Upewnij się, że potoki danych obejmują kontrole jakości kodu, w tym linting i analizę statyczną. Potoki danych powinny również obejmować testy jednostkowe i integracyjne, a także przepływy eksperymentowania i oceny. Na koniec uwzględnij kroki wdrażania produkcyjnego, takie jak promowanie wydań w środowiskach testowych i produkcyjnych po ręcznych zatwierdzeniach. Zachowaj separację między modelami, przepływami monitów i interfejsem użytkownika klienta, aby zapewnić, że aktualizacje jednego składnika nie wpływają na inne. Każdy przepływ powinien mieć własny cykl życia w celu niezależnego podwyższania poziomu.

Zarządzanie wdrożeniem sztucznej inteligencji

Zarządzanie wdrażaniem sztucznej inteligencji polega na zdefiniowaniu, kto może wdrażać zasoby sztucznej inteligencji i kto zarządza tymi punktami końcowymi. Ustrukturyzowane podejście, prowadzone przez centrum doskonałości sztucznej inteligencji, pomaga firmom zdecydować, czy zespoły obciążeń, czy centralny zespół powinien zarządzać zasobami, równoważyć szybkość programowania z wymaganiami dotyczącymi ładu. Sztuczna inteligencja coE powinna prowadzić do wysiłku w celu określenia najlepszego podejścia.

  • Użyj zarządzania zasobami sztucznej inteligencji przez zespół obciążeń, aby przyspieszyć programowanie. Gdy zespoły ds. obciążeń zarządzają zasobami sztucznej inteligencji, mają autonomię wdrażania zasobów sztucznej inteligencji i zarządzania nimi w granicach zasad ładu. Użyj usługi Azure Policy, aby wymusić spójny nadzór we wszystkich środowiskach obciążeń. Utwórz i przekaż zasady sztucznej inteligencji, które zespoły ds. obciążeń muszą przestrzegać, aby rozwiązać wszelkie luki w zakresie ładu. Na przykład utwórz zasady generowania sztucznej inteligencji, aby wymusić ustawienia filtru zawartości i uniemożliwić korzystanie z niedozwolonych modeli. Należy jasno określić te zasady zespołom obciążeń i regularnie przeprowadzać inspekcję.

    Diagram przedstawiający zarządzanie obciążeniami przez zespół ds. obciążeń sztucznej inteligencji. Rysunek 1. Zarządzanie zasobami sztucznej inteligencji przez zespół obciążeń.

  • Użyj współużytkowanego zarządzania zasobami sztucznej inteligencji, aby zwiększyć nadzór nad sztuczną inteligencją. W przypadku udostępnionego podejścia do zarządzania sztuczną inteligencją centralny zespół zarządza zasobami sztucznej inteligencji dla wszystkich obciążeń sztucznej inteligencji. Ten zespół wdraża podstawowe zasoby sztucznej inteligencji i konfiguruje zabezpieczenia i ład używany przez wszystkie zespoły ds. obciążeń. Użyj tego podejścia, jeśli chcesz, aby jeden zespół sterował wdrożeniami sztucznej inteligencji i ładem w obciążeniach.

    Diagram przedstawiający współużytkowane zarządzanie obciążeniami sztucznej inteligencji. Rysunek 2. Centralne zarządzanie zespołem sztucznej inteligencji zasobów sztucznej inteligencji.

Zarządzanie udostępnianiem punktów końcowych sztucznej inteligencji

Udostępnianie punktów końcowych sztucznej inteligencji między obciążeniami może usprawnić zarządzanie, ale wymaga starannego rozważenia wymagań dotyczących ładu i modelu. Firmy powinny udostępniać punkty końcowe tylko w ramach jednego obciążenia ze spójnymi potrzebami, ponieważ współdzielone użycie w różnych potrzebach może komplikować nadzór i zwiększać koszty.

  • Unikaj udostępniania punktów końcowych sztucznej inteligencji, gdy ład i wymagania dotyczące modelu różnią się. Obciążenia, które wymagają różnych ustawień filtru zawartości, takich jak nadzór nad danymi wejściowymi i wyjściowymi, nie powinny udostępniać punktu końcowego. Ponadto nie udostępniaj pojedynczego punktu końcowego sztucznej inteligencji, jeśli inny model sztucznej inteligencji zapewni bardziej ekonomiczny sposób spełnienia wymagań dotyczących obciążenia.

  • Udostępnianie punktów końcowych sztucznej inteligencji tylko w ramach jednego obciążenia. Udostępnianie punktu końcowego sztucznej inteligencji działa najlepiej, gdy zespół obciążenia ma wiele aplikacji w ramach tego samego obciążenia. Udostępnianie punktów końcowych sztucznej inteligencji zapewnia najmniejsze obciążenie związane z zarządzaniem i upraszcza wdrażanie. Te aplikacje muszą współdzielić te same potrzeby ładu i potrzeby modelu sztucznej inteligencji. Udostępnianie punktów końcowych może spowodować osiągnięcie limitów szybkości i ograniczeń przydziału. Większość usług platformy Azure ma limity na subskrypcję. W ramach subskrypcji każdy region ma limity przydziału.

Zarządzanie modelami AI

Zarządzanie modelami sztucznej inteligencji obejmuje ustawianie struktur ładu, ciągłe monitorowanie i ponowne trenowanie w celu utrzymania wydajności w czasie. Ten proces pomaga firmom dostosować modele do standardów etycznych, śledzić wydajność modelu i zapewnić, że systemy sztucznej inteligencji pozostaną skuteczne i dostosowane do celów biznesowych.

  • Ustanów strukturę ładu dla nadzoru nad sztuczną inteligencją. Utwórz centrum doskonałości sztucznej inteligencji (AI CoE) lub wyznaczyj lidera ds. sztucznej inteligencji. Powinny one zapewnić przestrzeganie standardów odpowiedzialnej sztucznej inteligencji. Powinny podejmować decyzje dotyczące tego, czy systemy muszą być dostosowane na podstawie tych raportów. Użyj pulpitu nawigacyjnego Odpowiedzialne używanie sztucznej inteligencji do generowania raportów dotyczących danych wyjściowych modelu.

  • Zdefiniuj punkt odniesienia pomiaru sztucznej inteligencji. Ustanów punkt odniesienia pomiaru, aby zapewnić, że modele sztucznej inteligencji są zgodne z celami biznesowymi i standardami etycznymi. Używaj kluczowych wskaźników wydajności związanych z zasadami odpowiedzialnej sztucznej inteligencji, takimi jak sprawiedliwość, przejrzystość i dokładność. Zamapuj te kluczowe wskaźniki wydajności na obciążenia sztucznej inteligencji. Na przykład w czatbotze obsługi klienta zmierz sprawiedliwość, oceniając, jak dobrze model działa w różnych grupach demograficznych. Aby wykonać te pomiary, zacznij od narzędzi używanych na pulpicie nawigacyjnym odpowiedzialnej sztucznej inteligencji.

  • Implementowanie ciągłego monitorowania. Obciążenia sztucznej inteligencji mogą się zmieniać wraz z upływem czasu z powodu zmieniających się danych, aktualizacji modelu lub zmian zachowania użytkownika. Monitorowanie modeli sztucznej inteligencji, zasobów sztucznej inteligencji, danych sztucznej inteligencji w celu zapewnienia, że te obciążenia pozostają zgodne z wskaźnikami KPI. Przeprowadzanie inspekcji w celu oceny systemów sztucznej inteligencji pod kątem zdefiniowanych zasad i metryk odpowiedzialnej sztucznej inteligencji.

  • Zidentyfikuj główne przyczyny problemów z wydajnością. Należy wskazać źródło problemu, gdy zostanie wykryty spadek wydajności lub dokładności przez monitorowanie sztucznej inteligencji. Upewnij się, że masz wgląd w każdy etap interakcji, aby szybciej odizolować problem i wdrożyć akcje naprawcze. Jeśli na przykład czatbot obsługi klienta generuje niedokładne odpowiedzi, monitorowanie powinno pomóc w ustaleniu, czy błąd występuje w monitowaniu, czy w zrozumieniu kontekstu modelu. Użyj wbudowanych narzędzi, takich jak Azure Monitor i Application Insights, aby aktywnie identyfikować wąskie gardła wydajności i anomalie.

  • Śledzenie wycofania modelu. Śledzenie wycofania wstępnie wytrenowanych modeli, aby zapobiec problemom z wydajnością, gdy kończy się pomoc techniczna dostawcy. Na przykład model generowania sztucznej inteligencji może być przestarzały, więc należy zaktualizować go, aby zachować funkcjonalność. Portal usługi Azure AI Foundry przedstawia datę wycofania modelu dla wszystkich wdrożeń.

  • Ponowne trenowanie modeli sztucznej inteligencji zgodnie z potrzebami. Uwzględnij obniżenie wydajności modeli w czasie ze względu na zmiany w danych. Zaplanuj regularne ponowne trenowanie na podstawie wydajności modelu lub potrzeb biznesowych, aby zapewnić, że system sztucznej inteligencji pozostaje odpowiedni. Ponowne trenowanie może być kosztowne, więc oceń początkowy koszt trenowania i użyj tego kosztu, aby ocenić, jak często należy ponownie trenować modele sztucznej inteligencji. Zachowaj kontrolę wersji dla modeli i upewnij się, że mechanizm wycofywania wersji jest niewystarczający.

  • Ustanów proces podwyższania poziomu modelu. Bramy jakości umożliwiają promowanie wytrenowanych, dostrojonych i przeszkoliczonych modeli w wyższych środowiskach na podstawie kryteriów wydajności. Kryteria wydajności są unikatowe dla każdej aplikacji.

Zarządzanie kosztami sztucznej inteligencji

Zarządzanie kosztami sztucznej inteligencji wymaga jasnego zrozumienia wydatków związanych z zasobami, takimi jak obliczenia, magazyn i przetwarzanie tokenów. Należy wdrożyć najlepsze rozwiązania dotyczące zarządzania kosztami, monitorować użycie i konfigurować zautomatyzowane alerty, aby uniknąć nieoczekiwanych wydatków i zoptymalizować wydajność zasobów.

  • Postępuj zgodnie z najlepszymi rozwiązaniami dotyczącymi zarządzania kosztami dla każdej usługi. Każda usługa platformy Azure ma określone funkcje i najlepsze rozwiązania, które maksymalizują optymalizację kosztów. Zapoznaj się z poniższymi wskazówkami dotyczącymi planowania kosztów i zarządzania nimi w usłudze azure AI Foundry, azure OpenAI Servicei azure Machine Learning.

  • Monitorowanie i maksymalizowanie wydajności rozliczeń. Zapoznaj się z punktami przerwania kosztów, aby uniknąć niepotrzebnych opłat. Przykłady obejmują pełne wykorzystanie progów stałych cen na potrzeby generowania obrazu lub dostrajania godzinowego. Śledź wzorce użycia, w tym tokeny na minutę (TPM) i żądania na minutę (RPM), a następnie odpowiednio dostosuj modele i architekturę. Rozważ model rozliczeń oparty na zobowiązaniach dla spójnych wzorców użycia.

  • Konfigurowanie automatycznych alertów dotyczących kosztów. Alerty budżetowe umożliwiają powiadamianie o nieoczekiwanych opłatach i ustanawianie strategii budżetowania w celu kontrolowania i przewidywania wydatków związanych ze sztuczną inteligencją.

Aby zapoznać się z generowaniem aplikacji sztucznej inteligencji korzystających z usługi Azure OpenAI, zobacz te zalecenia dotyczące optymalizacji kosztów.

Zarządzanie danymi sztucznej inteligencji

Efektywne zarządzanie danymi sztucznej inteligencji koncentruje się na zachowaniu dokładności, integralności i poufności danych w całym cyklu życia sztucznej inteligencji. Podczas curate wysokiej jakości zestawów danych i zabezpieczania potoków danych organizacja może zapewnić, że dane pozostają niezawodne i zgodne ze zmieniającymi się wymaganiami prawnymi.

  • Zachowaj dokładność danych i zawęż złote zestawy danych. Opracowanie autorytatywnego zestawu danych używanych do regularnego testowania i walidacji w obu typach sztucznej inteligencji. Stale curate tego zestawu danych, aby upewnić się, że odzwierciedla aktualne, dokładne informacje.

  • Upewnij się, że integralność potoku danych. Twórz i konserwuj niestandardowe potoki danych, aby zapewnić integralność danych od zbierania danych do wstępnego przetwarzania i przechowywania. Każdy krok potoku musi być bezpieczny, aby zachować wydajność i niezawodność w obu typach aplikacji sztucznej inteligencji.

  • Zarządzanie zmianami poufności danych. Dowiedz się, że klasyfikacja poufności danych może ulec zmianie w czasie. Możesz zmienić klasyfikację danych o niskiej poufności jako wysoce wrażliwe z powodu zmian biznesowych lub regulacyjnych. Opracowywanie procesów usuwania lub zastępowania poufnych danych w systemach podrzędnych. Microsoft Defender dla Chmury i Microsoft Purview mogą ułatwić etykietowanie poufnych danych i zarządzanie nimi. Ten proces rozpoczyna się od dobrego wykazu danych przed pozyskiwaniem sztucznej inteligencji. W przypadku wystąpienia zmian zidentyfikuj wszystkie modele lub systemy korzystające z poufnych danych. Jeśli to możliwe, przetrenuj modele sztucznej inteligencji przy użyciu zestawów danych, które wykluczają ponownie sklasyfikowane poufne dane.

Zarządzanie ciągłością biznesową sztucznej inteligencji

Ciągłość działania i odzyskiwanie po awarii dla sztucznej inteligencji obejmują tworzenie wdrożeń w wielu regionach i regularne testowanie planów odzyskiwania. Te strategie pomagają zapewnić, że systemy sztucznej inteligencji pozostają operacyjne podczas zakłóceń i minimalizują ryzyko długotrwałej awarii lub utraty danych.

  • Użyj wdrożeń wieloregionowych dla sztucznej inteligencji. Zaimplementuj wdrożenia w wielu regionach, aby zapewnić wysoką dostępność i odporność zarówno dla systemów generowania, jak i niegeneracyjnych systemów sztucznej inteligencji. Te strategie minimalizują przestoje i zapewniają, że krytyczne aplikacje sztucznej inteligencji pozostają operacyjne podczas regionalnych awarii lub awarii infrastruktury. Upewnij się, że zaimplementowano wymaganą nadmiarowość dla wytrenowanych i dostrojonych modeli, aby uniknąć konieczności ponownego trenowania podczas awarii.

  • Regularnie testuj i weryfikuj plany odzyskiwania po awarii. Wykonaj regularne testy planów odzyskiwania po awarii, aby sprawdzić, czy można skutecznie przywrócić systemy generowania i niegeneracyjne systemy sztucznej inteligencji. Uwzględnij testowanie procesów przywracania danych i procedur walidacji, aby upewnić się, że wszystkie składniki sztucznej inteligencji działają prawidłowo po odzyskiwaniu. Sprawdzanie poprawności regularnie zapewnia, że organizacja jest przygotowana do rzeczywistych zdarzeń i minimalizuje ryzyko awarii podczas odzyskiwania.

  • Zarządzanie zmianami w systemach sztucznej inteligencji i śledzenie ich. Upewnij się, że wszystkie zmiany modeli, danych i konfiguracji są zarządzane za pomocą systemów kontroli wersji, takich jak Git. Takie działanie ma kluczowe znaczenie dla śledzenia modyfikacji i zapewniania możliwości przywracania poprzednich wersji podczas odzyskiwania. W przypadku generowania i niegeneracyjnej sztucznej inteligencji należy przeprowadzić automatyczną inspekcję zmian modelu i systemu, aby można było szybko identyfikować i przywracać nieplanowane zmiany.

Następny krok