Perspektywa platformy Azure Well-Architected Framework w usłudze Azure OpenAI Service
Usługa Azure OpenAI Service zapewnia dostęp interfejsu API REST do dużych modeli językowych openAI (LLMs), dodając możliwości sieci i zabezpieczeń platformy Azure. Ten artykuł zawiera zalecenia dotyczące architektury, które ułatwiają podejmowanie świadomych decyzji podczas korzystania z usługi Azure OpenAI w ramach architektury obciążenia. Wskazówki są oparte na filarach platformy Azure Well-Architected Framework.
Ważne
Jak korzystać z tego przewodnika
Każda sekcja zawiera listę kontrolną projektu, która przedstawia zagadnienia dotyczące architektury wraz ze strategiami projektowania zlokalizowanymi w zakresie technologii.
Uwzględniono również zalecenia dotyczące możliwości technologicznych, które mogą pomóc zmaterializować te strategie. Zalecenia nie reprezentują wyczerpującej listy wszystkich konfiguracji dostępnych dla usługi Azure OpenAI i jej zależności. Zamiast tego wyświetlają listę kluczowych zaleceń mapowanych na perspektywy projektu. Skorzystaj z zaleceń, aby utworzyć weryfikację koncepcji lub zoptymalizować istniejące środowiska.
Podstawowa architektura, która demonstruje kluczowe zalecenia: podstawowa architektura referencyjna czatu OpenAI openAI.
Zakres technologii
Ten przegląd koncentruje się wyłącznie na usłudze Azure OpenAI.
Niezawodność
Celem filaru niezawodności jest zapewnienie ciągłej funkcjonalności poprzez budowanie wystarczającej odporności i możliwość szybkiego odzyskiwania po awariach.
Zasady projektowania niezawodności zapewniają ogólną strategię projektowania stosowaną dla poszczególnych składników, przepływów systemowych i całego systemu.
Lista kontrolna projektu
Rozpocznij strategię projektowania na podstawie listy kontrolnej przeglądu projektu pod kątem niezawodności. Określ jego znaczenie dla wymagań biznesowych. Rozszerz strategię w celu uwzględnienia większej liczby podejść zgodnie z potrzebami.
Odporność: wybierz odpowiednią opcję wdrożenia z płatnością zgodnie z rzeczywistym użyciem lub aprowizowaną przepływnością na podstawie przypadku użycia. Ponieważ pojemność zarezerwowana zwiększa odporność, wybierz aprowizowaną przepływność dla rozwiązań produkcyjnych. Podejście z płatnością zgodnie z rzeczywistym użyciem jest idealne dla środowisk deweloperskich/testowych.
Nadmiarowość: dodaj odpowiednie bramy przed wdrożeniami usługi Azure OpenAI. Brama musi mieć możliwość wytrzymania przejściowych awarii, takich jak ograniczanie przepustowości, a także kierowanie do wielu wystąpień usługi Azure OpenAI. Rozważ routing do wystąpień w różnych regionach, aby utworzyć nadmiarowość regionalną.
Odporność: jeśli używasz aprowizowanej przepływności, rozważ również wdrożenie wystąpienia z płatnością zgodnie z rzeczywistym użyciem w celu obsługi przepełnienia. Wywołania można kierować do wystąpienia z płatnością zgodnie z rzeczywistym użyciem za pośrednictwem bramy, gdy aprowizowany model przepływności jest ograniczany.
Odporność: Monitoruj użycie pojemności, aby upewnić się, że nie przekraczasz limitów przepływności. Regularnie przeglądaj użycie pojemności, aby osiągnąć dokładniejsze prognozowanie i zapobiegać przerwom w działaniu usługi z powodu ograniczeń pojemności.
Odporność: postępuj zgodnie ze wskazówkami dotyczącymi dostrajania dużych plików danych i importuj dane z magazynu obiektów blob platformy Azure. Duże pliki, 100 MB lub większe, mogą stać się niestabilne podczas przekazywania za pośrednictwem formularzy wieloczęściowych, ponieważ żądania są niepodzielne i nie można ich ponowić ani wznowić.
Odzyskiwanie: zdefiniuj strategię odzyskiwania, która obejmuje plan odzyskiwania dla modeli, które są dostosowane i do danych szkoleniowych przekazywanych do usługi Azure OpenAI. Ponieważ usługa Azure OpenAI nie ma automatycznego trybu failover, musisz zaprojektować strategię obejmującą całą usługę i wszystkie zależności, takie jak magazyn zawierający dane szkoleniowe.
Zalecenia
Zalecenie | Korzyści |
---|---|
Monitorowanie limitów stawek dla płatności zgodnie z rzeczywistym użyciem: jeśli używasz podejścia z płatnością zgodnie z rzeczywistym użyciem, zarządzaj limitami szybkości dla wdrożeń modelu i monitoruj użycie tokenów na minutę (TPM) i żądania na minutę (RPM). | Te ważne informacje o przepływności zawierają informacje wymagane do zapewnienia, że przypisano wystarczającą ilość modułu TPM z limitu przydziału, aby zaspokoić zapotrzebowanie na wdrożenia. Przypisywanie wystarczającego limitu przydziału uniemożliwia ograniczanie liczby wywołań do wdrożonych modeli. |
Monitorowanie wykorzystania aprowizowanego przez aprowizowaną przepływność: jeśli używasz modelu płatności z aprowizowaną przepływnością, monitoruj wykorzystanie zarządzane przez aprowizację. | Ważne jest, aby monitorować wykorzystanie zarządzane przez aprowizację, aby upewnić się, że nie przekracza 100%, aby zapobiec ograniczaniu liczby wywołań do wdrożonych modeli. |
Włącz funkcję dynamicznego limitu przydziału: jeśli budżet obciążenia go obsługuje, przeprowadź aprowizowanie przez włączenie dynamicznego limitu przydziału we wdrożeniach modelu. | Limit przydziału dynamicznego umożliwia wdrożeniu użycie większej pojemności niż zwykle limit przydziału, o ile jest dostępna pojemność z perspektywy platformy Azure. Dodatkowa pojemność przydziału może potencjalnie zapobiec niepożądanemu ograniczaniu przepustowości. |
Dostrajanie filtrów zawartości: dostrajanie filtrów zawartości w celu zminimalizowania wyników fałszywie dodatnich z nadmiernie agresywnych filtrów. | Filtry zawartości blokują monity lub uzupełnienia na podstawie nieprzezroczystej analizy ryzyka. Upewnij się, że filtry zawartości są dostrojone, aby umożliwić oczekiwane użycie obciążenia. |
Zabezpieczenia
Celem filaru Zabezpieczenia jest zapewnienie poufności, integralności i gwarancji dostępności dla obciążenia.
Zasady projektowania zabezpieczeń zapewniają strategię projektowania wysokiego poziomu w celu osiągnięcia tych celów, stosując podejścia do projektu technicznego wokół usługi Azure OpenAI.
Lista kontrolna projektu
Rozpocznij strategię projektowania na podstawie listy kontrolnej przeglądu projektu pod kątem zabezpieczeń i identyfikowania luk w zabezpieczeniach i mechanizmów kontroli w celu poprawy stanu zabezpieczeń. Następnie zapoznaj się z punktem odniesienia zabezpieczeń platformy Azure dla usługi Azure OpenAI. Na koniec rozszerz strategię w celu uwzględnienia większej liczby podejść zgodnie z potrzebami.
Ochrona poufności: w przypadku przekazywania danych szkoleniowych do usługi Azure OpenAI użyj kluczy zarządzanych przez klienta na potrzeby szyfrowania danych, zaimplementuj strategię rotacji kluczy i usuń dane szkoleniowe, walidacji i wyników trenowania. Jeśli używasz zewnętrznego magazynu danych do trenowania danych, postępuj zgodnie z najlepszymi rozwiązaniami w zakresie zabezpieczeń dla tego magazynu. Na przykład w przypadku usługi Azure Blob Storage użyj kluczy zarządzanych przez klienta do szyfrowania i zaimplementuj strategię rotacji kluczy. Użyj dostępu opartego na tożsamościach zarządzanych, zaimplementuj obwód sieci przy użyciu prywatnych punktów końcowych i włącz dzienniki dostępu.
Ochrona poufności: ochrona przed eksfiltracją danych przez ograniczenie adresów URL ruchu wychodzącego, do których mogą uzyskiwać dostęp zasoby usługi Azure OpenAI.
Ochrona integralności: zaimplementuj mechanizmy kontroli dostępu, aby uwierzytelnić i autoryzować dostęp użytkowników do systemu przy użyciu zasady najniższych uprawnień i przy użyciu poszczególnych tożsamości zamiast kluczy.
Ochrona integralności: zaimplementuj wykrywanie ryzyka zabezpieczeń systemu jailbreak w celu ochrony wdrożeń modelu językowego przed atakami polegającymi na wstrzyknięciu monitu.
Ochrona dostępności: użyj mechanizmów kontroli zabezpieczeń, aby zapobiec atakom, które mogą wyczerpać limity przydziału użycia modelu. Możesz skonfigurować kontrolki w celu odizolowania usługi w sieci. Jeśli usługa musi być dostępna z Internetu, rozważ użycie bramy do blokowania podejrzanych nadużyć przy użyciu routingu lub ograniczania przepustowości.
Zalecenia
Zalecenie | Korzyści |
---|---|
Bezpieczne klucze: jeśli twoja architektura wymaga uwierzytelniania opartego na kluczach usługi Azure OpenAI, zapisz te klucze w usłudze Azure Key Vault, a nie w kodzie aplikacji. | Oddzielenie wpisów tajnych od kodu przez zapisanie ich w usłudze Key Vault zmniejsza prawdopodobieństwo wycieku wpisów tajnych. Separacja ułatwia również centralne zarządzanie wpisami tajnymi, złagodzenie obowiązków, takich jak rotacja kluczy. |
Ogranicz dostęp: wyłącz publiczny dostęp do usługi Azure OpenAI, chyba że wymaga tego obciążenie. Utwórz prywatne punkty końcowe , jeśli łączysz się z użytkownikami w sieci wirtualnej platformy Azure. | Kontrolowanie dostępu do usługi Azure OpenAI pomaga zapobiegać atakom nieautoryzowanym użytkownikom. Korzystanie z prywatnych punktów końcowych zapewnia, że ruch sieciowy pozostaje prywatny między aplikacją a platformą. |
Microsoft Entra ID: użyj identyfikatora Entra firmy Microsoft do uwierzytelniania i autoryzowania dostępu do usługi Azure OpenAI przy użyciu kontroli dostępu opartej na rolach (RBAC). Wyłącz uwierzytelnianie lokalne w usługach Azure AI i ustaw wartość true disableLocalAuth . Udziel tożsamości wykonujących ukończenie lub generowanie obrazu roli użytkownika openAI usług Cognitive Services. Udzielanie potokom automatyzacji modelu i dostęp do analizy danych ad hoc roli, takiej jak Współautor openAI usług Cognitive Services. |
Korzystanie z identyfikatora Entra firmy Microsoft umożliwia scentralizowanie składnika zarządzania tożsamościami i eliminuje użycie kluczy interfejsu API. Użycie kontroli dostępu opartej na rolach z identyfikatorem Entra firmy Microsoft gwarantuje, że użytkownicy lub grupy mają dokładnie uprawnienia, które muszą wykonać. Tego rodzaju szczegółowa kontrola dostępu nie jest możliwa w przypadku kluczy interfejsu API usługi Azure OpenAI. |
Użyj kluczy zarządzanych przez klienta: użyj kluczy zarządzanych przez klienta w celu dostosowania modeli i danych szkoleniowych przekazanych do usługi Azure OpenAI. | Użycie kluczy zarządzanych przez klienta zapewnia większą elastyczność tworzenia, obracania, wyłączania i odwoływanie kontroli dostępu. |
Ochrona przed atakami zabezpieczeń systemu jailbreak: użyj narzędzia Azure AI Content Safety Studio , aby wykrywać zagrożenia związane z jailbreakiem. | Wykryj próby jailbreaku, aby zidentyfikować i zablokować monity, które próbują obejść mechanizmy bezpieczeństwa wdrożeń usługi Azure OpenAI. |
Optymalizacja kosztów
Optymalizacja kosztów koncentruje się na wykrywaniu wzorców wydatków, określaniu priorytetów inwestycji w krytycznych obszarach i optymalizacji w innych , aby spełnić budżet organizacji przy jednoczesnym spełnieniu wymagań biznesowych.
Zapoznaj się z zasadami projektowania optymalizacji kosztów, aby dowiedzieć się więcej o podejściach do osiągnięcia tych celów i kompromisach niezbędnych w wyborach projektowych technicznych związanych z usługą Azure OpenAI.
Lista kontrolna projektu
Rozpocznij strategię projektowania na podstawie listy kontrolnej przeglądu projektu dotyczącej optymalizacji kosztów dla inwestycji. Dostosuj projekt tak, aby obciążenie było dostosowane do przydzielonego budżetu. Projekt powinien używać odpowiednich możliwości platformy Azure, monitorować inwestycje i znajdować możliwości optymalizacji w czasie.
Zarządzanie kosztami: opracowywanie modelu kosztów, biorąc pod uwagę rozmiary monitów. Zrozumienie rozmiarów danych wejściowych i odpowiedzi monitów oraz sposobu tłumaczenia tekstu na tokeny pomaga utworzyć realny model kosztów.
Optymalizacja użycia: zacznij od cennika z płatnością zgodnie z rzeczywistym użyciem dla usługi Azure OpenAI, dopóki użycie tokenu nie będzie przewidywalne.
Optymalizacja szybkości: jeśli użycie tokenu jest wystarczająco wysokie i przewidywalne w danym okresie, użyj modelu cen aprowizowanej przepływności w celu uzyskania lepszej optymalizacji kosztów.
Optymalizacja użycia: podczas wybierania modeli należy wziąć pod uwagę ceny i możliwości modelu. Zacznij od mniej kosztownych modeli dla mniej złożonych zadań, takich jak generowanie tekstu lub zadania ukończenia. Aby uzyskać bardziej złożone zadania, takie jak tłumaczenie języka lub interpretacja zawartości, rozważ użycie bardziej zaawansowanych modeli. Podczas wybierania modelu odpowiedniego dla przypadków użycia tekstu, takich jak osadzanie tekstu, generowanie obrazów lub scenariusze transkrypcji, rozważ różne możliwości modelu i maksymalne limity użycia tokenów. Starannie wybierając model, który najlepiej odpowiada Twoim potrzebom, możesz zoptymalizować koszty, jednocześnie osiągając żądaną wydajność aplikacji.
Optymalizacja użycia: użyj ograniczeń ograniczania tokenów oferowanych przez wywołania interfejsu API, takich jak
max_tokens
in
, które wskazują liczbę uzupełniania do wygenerowania.Optymalizacja użycia: Maksymalizuj punkty przerwania cen usługi Azure OpenAI, na przykład precyzyjne dostrajanie i punkty przerwania modelu, takie jak generowanie obrazów. Ponieważ dostrajanie jest naliczane za godzinę, użyj tyle czasu, ile jest dostępne na godzinę, aby poprawić wyniki dostrajania, unikając poślizgu w następnym okresie rozliczeniowym. Podobnie koszt generowania 100 obrazów jest taki sam jak koszt 1 obrazu. Maksymalizuj punkty przerwania cen na twoją korzyść.
Optymalizacja użycia: usuń nieużywane dostosowane modele, gdy nie są już używane, aby uniknąć naliczania trwającej opłaty za hosting.
Dostosuj użycie: zoptymalizuj długość monitu i odpowiedzi. Dłuższe monity zwiększają koszty, zużywając więcej tokenów. Jednak monity, które nie mają wystarczającego kontekstu, nie pomagają modelom uzyskać dobre wyniki. Utwórz zwięzłe monity, które zapewniają wystarczający kontekst dla modelu, aby wygenerować przydatną odpowiedź. Upewnij się również, że zoptymalizowano limit długości odpowiedzi.
Efektywność kosztowa: żądania usługi Batch, gdzie to możliwe, aby zminimalizować nakład pracy na wywołanie, co może zmniejszyć ogólne koszty. Upewnij się, że zoptymalizowano rozmiar partii.
Efektywność kosztowa: ponieważ modele mają różne koszty dostrajania, rozważ te koszty, jeśli rozwiązanie wymaga precyzyjnego dostrajania.
Monitorowanie i optymalizowanie: skonfiguruj system śledzenia kosztów, który monitoruje użycie modelu. Te informacje ułatwiają informowanie o wyborach modelu i rozmiarach monitów.
Zalecenia
Zalecenie | Korzyści |
---|---|
Zaprojektuj kod klienta, aby ustawić limity: Klienci niestandardowi powinni używać funkcji limitu interfejsu API uzupełniania usługi Azure OpenAI, takich jak maksymalny limit liczby tokenów na model (max_tokens ) lub liczbę uzupełniania do generowania (n ). Ustawienie limitów gwarantuje, że serwer nie generuje więcej niż potrzeby klienta. |
Używanie funkcji interfejsu API w celu ograniczenia użycia dopasowuje użycie usługi do potrzeb klientów. Pozwala to zaoszczędzić pieniądze, zapewniając, że model nie generuje nadmiernie długiej odpowiedzi, która zużywa więcej tokenów niż jest to konieczne. |
Monitorowanie użycia płatności zgodnie z rzeczywistym użyciem: jeśli używasz podejścia z płatnością zgodnie z rzeczywistym użyciem, monitoruj użycie modułu TPM i rpm. Te informacje służą do informowania o decyzjach projektowych dotyczących architektury, takich jak modele do użycia, oraz optymalizowanie rozmiarów monitów. | Ciągłe monitorowanie modułu TPM i rpm zapewnia odpowiednie metryki w celu zoptymalizowania kosztów modeli usługi Azure OpenAI. Możesz połączyć to monitorowanie z funkcjami modelu i cennikiem modelu, aby zoptymalizować użycie modelu. Możesz również użyć tego monitorowania, aby zoptymalizować rozmiary monitów. |
Monitorowanie aprowizowanego użycia przepływności: jeśli używasz aprowizowanej przepływności, monitoruj użycie zarządzane przez aprowizację, aby upewnić się, że nie korzystasz z zakupionej aprowizowanej przepływności. | Ciągłe monitorowanie użycia zarządzanego przez aprowizację zapewnia informacje potrzebne do zrozumienia, czy nie korzystasz z aprowizowanej przepływności. |
Zarządzanie kosztami: korzystanie z funkcji zarządzania kosztami w usłudze OpenAI w celu monitorowania kosztów, ustawiania budżetów pod kątem zarządzania kosztami i tworzenia alertów w celu powiadamiania uczestników projektu o ryzyku lub anomaliach. | Monitorowanie kosztów, ustawianie budżetów i ustawianie alertów zapewnia nadzór z odpowiednimi procesami odpowiedzialności. |
Sprawność operacyjna
Doskonałość operacyjna koncentruje się przede wszystkim na procedurach dotyczących praktyk programistycznych, możliwości obserwacji i zarządzania wydaniami.
Zasady projektowania doskonałości operacyjnej stanowią ogólną strategię projektowania w celu osiągnięcia tych celów w kierunku wymagań operacyjnych obciążenia.
Lista kontrolna projektu
Rozpocznij strategię projektowania na podstawie listy kontrolnej przeglądu projektu pod kątem doskonałości operacyjnej. Ta lista kontrolna definiuje procesy umożliwiające obserwowanie, testowanie i wdrażanie związane z usługą Azure OpenAI.
Kultura usługi Azure DevOps: zapewnianie wdrożenia wystąpień usługi Azure OpenAI w różnych środowiskach, takich jak programowanie, testowanie i produkcja. Upewnij się, że masz środowiska do obsługi ciągłego uczenia się i eksperymentowania w całym cyklu programowania.
Możliwość obserwowania: Monitoruj, agreguj i wizualizuj odpowiednie metryki.
Możliwość obserwowania: jeśli diagnostyka azure OpenAI nie jest wystarczająca do Twoich potrzeb, rozważ użycie bramy takiej jak usługa Azure API Management przed usługą Azure OpenAI w celu rejestrowania zarówno przychodzących monitów, jak i odpowiedzi wychodzących, jeśli jest to dozwolone. Te informacje mogą ułatwić zrozumienie skuteczności modelu dla monitów przychodzących.
Wdrażanie z ufnością: użyj infrastruktury jako kodu (IaC), aby wdrożyć usługę Azure OpenAI, wdrożenia modelu i inną infrastrukturę wymaganą do dostrajania modeli.
Wdrażanie z pewnością: postępuj zgodnie z dużymi rozwiązaniami dotyczącymi operacji modelu językowego (LLMOps), aby operacjonalizować zarządzanie maszynami LLM platformy Azure OpenAI, w tym wdrażanie, dostrajanie i tworzenie monitów.
Automatyzacja pod kątem wydajności: jeśli używasz uwierzytelniania opartego na kluczach, zaimplementuj zautomatyzowaną strategię rotacji kluczy.
Zalecenia
Zalecenie | Korzyści |
---|---|
Włączanie i konfigurowanie Diagnostyka Azure: włączanie i konfigurowanie diagnostyki dla usługi Azure OpenAI. | Diagnostyka zbiera i analizuje metryki i dzienniki, pomagając monitorować dostępność, wydajność i działanie usługi Azure OpenAI. |
Efektywność wydajności
Wydajność polega na utrzymywaniu środowiska użytkownika nawet wtedy, gdy występuje wzrost obciążenia dzięki zarządzaniu pojemnością. Strategia obejmuje skalowanie zasobów, identyfikowanie i optymalizowanie potencjalnych wąskich gardeł oraz optymalizowanie pod kątem szczytowej wydajności.
Zasady projektowania wydajności zapewniają ogólną strategię projektowania w celu osiągnięcia tych celów pojemności w stosunku do oczekiwanego użycia.
Lista kontrolna projektu
Rozpocznij strategię projektowania na podstawie listy kontrolnej przeglądu projektu wydajności w celu zdefiniowania punktu odniesienia na podstawie kluczowych wskaźników wydajności dla obciążeń usługi Azure OpenAI.
Pojemność: szacowanie zapotrzebowania konsumentów na elastyczność. Zidentyfikuj ruch o wysokim priorytcie, który wymaga synchronicznych odpowiedzi i ruchu o niskim priorytcie, który może być asynchroniczny i wsadowy.
Pojemność: Przeprowadź test porównawczy wymagań dotyczących użycia tokenów w oparciu o szacowane wymagania konsumentów. Rozważ użycie narzędzia do testowania porównawczego usługi Azure OpenAI, aby ułatwić sprawdzenie przepływności, jeśli używasz wdrożeń jednostek przepływności aprowizowania (PTU).
Pojemność: użyj aprowizowanej przepływności dla obciążeń produkcyjnych. Aprowizowana przepływność oferuje dedykowaną pamięć i zasoby obliczeniowe, pojemność zarezerwowaną i spójne maksymalne opóźnienie dla określonej wersji modelu. Oferta płatności zgodnie z rzeczywistym użyciem może cierpieć na hałaśliwe problemy sąsiadów , takie jak zwiększone opóźnienie i ograniczanie przepustowości w regionach w ciężkim użyciu. Ponadto podejście z płatnością zgodnie z rzeczywistym użyciem nie oferuje gwarantowanej pojemności.
Pojemność: dodaj odpowiednie bramy przed wdrożeniami usługi Azure OpenAI. Upewnij się, że brama może kierować do wielu wystąpień w tych samych lub różnych regionach.
Pojemność: przydziel jednostki PTU w celu pokrycia przewidywanego użycia i uzupełnij te jednostki PTU wdrożeniem modułu TPM, aby obsłużyć elastyczność powyżej tego limitu. Takie podejście łączy podstawową przepływność z elastyczną przepływnością w celu zwiększenia wydajności. Podobnie jak w przypadku innych zagadnień, takie podejście wymaga implementacji bramy niestandardowej w celu kierowania żądań do wdrożenia modułu TPM po osiągnięciu limitów jednostki PTU.
Pojemność: synchronicznie wysyłaj żądania o wysokim priorytcie. Kolejkuj żądania o niskim priorytcie i wysyłaj je w partiach, gdy zapotrzebowanie jest niskie.
Pojemność: wybierz model, który jest zgodny z wymaganiami dotyczącymi wydajności, biorąc pod uwagę kompromis między szybkością i złożonością danych wyjściowych. Wydajność modelu może się znacznie różnić w zależności od wybranego typu modelu. Modele zaprojektowane pod kątem szybkości oferują szybsze czasy odpowiedzi, które mogą być korzystne dla aplikacji wymagających szybkich interakcji. Z drugiej strony bardziej zaawansowane modele mogą dostarczać dane wyjściowe o wyższej jakości kosztem zwiększonego czasu odpowiedzi.
Osiągnij wydajność: w przypadku aplikacji, takich jak czatboty lub interfejsy konwersacyjne, rozważ zaimplementowanie przesyłania strumieniowego. Przesyłanie strumieniowe może zwiększyć postrzeganą wydajność aplikacji Azure OpenAI, dostarczając odpowiedzi użytkownikom w sposób przyrostowy, poprawiając środowisko użytkownika.
Osiągnij wydajność: określ, kiedy należy użyć dostrajania przed zatwierdzeniem dostrajania . Chociaż istnieją dobre przypadki użycia do dostrajania, takie jak wtedy, gdy informacje potrzebne do kierowania modelem są zbyt długie lub złożone, aby dopasować się do monitu, upewnij się, że metody inżynierii i pobierania rozszerzonej generacji (RAG) nie działają lub są demonstralnie droższe.
Osiągnij wydajność: rozważ użycie dedykowanych wdrożeń modelu dla grupy odbiorców, aby zapewnić izolację użycia modelu, która może pomóc zapobiec hałaśliwym sąsiadom między grupami odbiorców.
Zalecenia
Nie ma zalecanych konfiguracji wydajności dla usługi Azure OpenAI.
Azure Policy
Platforma Azure udostępnia obszerny zestaw wbudowanych zasad związanych z usługą Azure OpenAI i jej zależnościami. Niektóre z powyższych zaleceń można przeprowadzić inspekcję za pomocą usługi Azure Policy. Rozważ następujące definicje zasad:
- Wyłączanie dostępu do klucza
- Ograniczanie dostępu do sieci
- Wyłączanie dostępu do sieci publicznej
- Korzystanie z usługi Azure Private Link
- Włączanie szyfrowania danych przy użyciu kluczy zarządzanych przez klienta
Te definicje usługi Azure Policy to również zalecenia dotyczące najlepszych rozwiązań w zakresie zabezpieczeń usługi Azure Advisor dla usługi Azure OpenAI.
Następne kroki
Rozważ następujące artykuły jako zasoby, które przedstawiają zalecenia wyróżnione w tym artykule.
- Użyj tej architektury referencyjnej jako przykładu sposobu zastosowania wskazówek w tym artykule do obciążenia: podstawowa architektura referencyjna czatu OpenAI typu OpenAI.
- Tworzenie wiedzy dotyczącej implementacji przy użyciu dokumentacji produktu Azure Machine Learning .