Typy wdrożeń usługi Azure OpenAI
Usługa Azure OpenAI zapewnia klientom wybór struktury hostingu, która pasuje do wzorców biznesowych i użycia. Usługa oferuje dwa główne typy wdrożeń: standardowe i aprowizowane. W przypadku danego typu wdrożenia klienci mogą dostosować swoje obciążenia do wymagań dotyczących przetwarzania danych, wybierając lokalizację geograficzną platformy Azure (Standard
lub Provisioned
), określoną strefę danych firmy Microsoft (DataZone-Standard
) lub opcje przetwarzania globalnego (Global-Standard
lub Global Provisioned-Managed
).
Wszystkie wdrożenia mogą wykonywać dokładnie te same operacje wnioskowania, jednak rozliczenia, skala i wydajność są znacznie inne. W ramach projektu rozwiązania należy podjąć dwie kluczowe decyzje:
- Lokalizacja przetwarzania danych
- Głośność wywołań
Lokalizacje przetwarzania danych wdrażania usługi Azure OpenAI
W przypadku wdrożeń standardowych dostępne są trzy opcje typu wdrożenia — lokalizacja geograficzna, strefa danych i lokalizacja geograficzna platformy Azure. W przypadku wdrożeń aprowizowanych dostępne są dwie opcje typu wdrożenia — lokalizacja geograficzna globalna i geograficzna platformy Azure. Globalny standard jest zalecanym punktem wyjścia.
Wdrożenia globalne wykorzystują globalną infrastrukturę platformy Azure do dynamicznego kierowania ruchu klientów do centrum danych z najlepszą dostępnością żądań wnioskowania klienta. Oznacza to, że uzyskasz najwyższe początkowe limity przepływności i najlepszą dostępność modelu z globalną, jednocześnie zapewniając umowę SLA czasu pracy i małe opóźnienia. W przypadku obciążeń o dużej ilości powyżej określonych warstw użycia w warstwie Standardowa i globalnej może wystąpić zwiększona zmienność opóźnień. W przypadku klientów, którzy wymagają mniejszej wariancji opóźnienia w przypadku dużego użycia obciążeń, zalecamy korzystanie z naszych aprowizowanych typów wdrożeń.
Nasze wdrożenia globalne będą pierwszą lokalizacją dla wszystkich nowych modeli i funkcji. W zależności od liczby wywołań klienci z dużą ilością i wymaganiami dotyczącymi wariancji o małych opóźnieniach powinni rozważyć nasze aprowizowane typy wdrożeń.
Wdrożenia stref danych wykorzystują globalną infrastrukturę platformy Azure do dynamicznego kierowania ruchu klientów do centrum danych z najlepszą dostępnością żądań wnioskowania klienta w strefie danych zdefiniowanej przez firmę Microsoft. Rozmieszczone między naszą lokalizacją geograficzną platformy Azure i globalnymi ofertami wdrażania strefy danych zapewniają limity przydziału z podwyższonym poziomem przydziału przy jednoczesnym zachowaniu przetwarzania danych w określonej strefie danych firmy Microsoft. Dane przechowywane w spoczynku będą nadal przechowywane w lokalizacji geograficznej zasobu usługi Azure OpenAI (np. dla zasobu usługi Azure OpenAI utworzonego w regionie Szwedzkiej Środkowej platformy Azure, lokalizacja geograficzna platformy Azure to Szwecja).
Jeśli zasób usługi Azure OpenAI używany we wdrożeniu strefy danych znajduje się w Stany Zjednoczone, dane zostaną przetworzone w ramach Stany Zjednoczone. Jeśli zasób usługi Azure OpenAI używany we wdrożeniu strefy danych znajduje się w kraju członkowskim Unii Europejskiej, dane będą przetwarzane w lokalizacjach geograficznych Krajów Członkowskich Unii Europejskiej. W przypadku wszystkich typów wdrożeń usługi Azure OpenAI wszystkie dane przechowywane w spoczynku będą nadal przechowywane w lokalizacji geograficznej zasobu Azure OpenAI. Zobowiązania dotyczące przetwarzania danych i zgodności platformy Azure pozostają stosowane.
W przypadku dowolnego typu wdrożenia oznaczonego jako "Globalny" monity i odpowiedzi mogą być przetwarzane w dowolnej lokalizacji geograficznej, w której wdrożono odpowiedni model usługi Azure OpenAI (dowiedz się więcej o dostępności regionów modeli). W przypadku dowolnego typu wdrożenia oznaczonego jako "DataZone" monity i odpowiedzi mogą być przetwarzane w dowolnej lokalizacji geograficznej w określonej strefie danych, zgodnie z definicją przez firmę Microsoft. Jeśli utworzysz wdrożenie dataZone w zasobie usługi Azure OpenAI znajdującym się w Stany Zjednoczone, monity i odpowiedzi mogą być przetwarzane w dowolnym miejscu w Stany Zjednoczone. Jeśli utworzysz wdrożenie datazone w zasobie usługi Azure OpenAI znajdującym się w kraju członkowskim Unii Europejskiej, monity i odpowiedzi mogą być przetwarzane w tym lub w innym kraju członkowskim Unii Europejskiej. W przypadku typów wdrożeń Global i DataZone wszystkie dane przechowywane w spoczynku, takie jak przekazane dane, są przechowywane w lokalizacji geograficznej wyznaczonej przez klienta. Dotyczy to tylko lokalizacji przetwarzania, gdy klient używa globalnego typu wdrożenia lub typu wdrożenia DataZone w usłudze Azure OpenAI Service; Zobowiązania dotyczące przetwarzania danych i zgodności platformy Azure pozostają stosowane.
Typy wdrożeń
Usługa Azure OpenAI oferuje trzy typy wdrożeń. Zapewniają one zróżnicowany poziom możliwości, które zapewniają kompromisy między przepływnością, umowami SLA i ceną. Poniżej znajduje się podsumowanie opcji, po których znajduje się bardziej szczegółowy opis każdego z nich.
Oferuje | Global-Batch | Standardowa globalna | Aprowizacja globalna | Standardowa | Zaaprowizowane |
---|---|---|---|---|---|
Najlepiej nadaje się do | Ocenianie w trybie offline Obciążenia, które nie są wrażliwe na opóźnienia i mogą być wykonywane w godzinach. |
Zalecane miejsce rozpoczęcia dla klientów. W warstwie Global-Standard będzie dostępny większy limit przydziału domyślnego i większa liczba modeli niż w warstwie Standardowa. |
Ocenianie w czasie rzeczywistym dla dużego woluminu spójnego. Obejmuje najwyższe zobowiązania i limity. | W przypadku klientów z wymaganiami dotyczącymi rezydencji danych. Zoptymalizowane pod kątem małych i średnich woluminów. | Ocenianie w czasie rzeczywistym dla dużego woluminu spójnego. Obejmuje najwyższe zobowiązania i limity. W przypadku przypadków użycia z wymaganiami dotyczącymi rezydencji danych |
Jak to działa | Przetwarzanie w trybie offline za pośrednictwem plików | Ruch może być kierowany w dowolnym miejscu na świecie | Ruch może być kierowany w dowolnym miejscu na świecie | ||
Rozpoczęcie pracy | Global-Batch | Wdrażanie modelu | Aprowizowanie dołączania | Wdrażanie modelu | Aprowizowanie dołączania |
Koszty | Najmniej kosztowna opcja 50% mniej kosztu w porównaniu z cenami Global Standard. Dostęp do wszystkich nowych modeli z większymi alokacjami przydziałów. |
Cennik wdrożenia globalnego | Może to spowodować oszczędności kosztów w przypadku spójnego użycia | Cennik regionalny | Może to spowodować oszczędności kosztów w przypadku spójnego użycia |
Co otrzymujesz | Znaczne rabaty w porównaniu do warstwy Global Standard | Łatwy dostęp do wszystkich nowych modeli z najwyższymi domyślnymi limitami płatności za połączenie. Klienci z wysokim użyciem woluminu mogą zobaczyć większą zmienność opóźnienia |
Dostęp do wysokiej i przewidywalnej przepływności w globalnej infrastrukturze platformy Azure. Określanie przepływności na jednostkę PTU przy użyciu podanego kalkulatora pojemności. | Umowa SLA dotycząca dostępności. Zoptymalizowane pod kątem obciążeń o małych i średnich woluminach z dużą wydajnością. Klienci o dużej spójnego woluminie mogą mieć większe opóźnienie zmienności. |
Dostęp regionalny z bardzo wysoką i przewidywalną przepływnością. Określanie przepływności na jednostkę PTU przy użyciu dostarczonego kalkulatora pojemności |
Czego nie otrzymujesz | ❌Wydajność wywołań w czasie rzeczywistym ❌Gwarancja przetwarzania danych Dane przechowywane w spoczynku pozostają w wyznaczonej lokalizacji geograficznej platformy Azure, podczas gdy dane mogą być przetwarzane do wnioskowania w dowolnej lokalizacji usługi Azure OpenAI. Dowiedz się więcej o miejscu przechowywania danych |
❌Gwarancja przetwarzania danych Dane przechowywane w spoczynku pozostają w wyznaczonej lokalizacji geograficznej platformy Azure, podczas gdy dane mogą być przetwarzane do wnioskowania w dowolnej lokalizacji usługi Azure OpenAI. Dowiedz się więcej o miejscu przechowywania danych |
❌Elastyczność płatności za połączenie ❌Gwarancja przetwarzania danych Dane przechowywane w spoczynku pozostają w wyznaczonej lokalizacji geograficznej platformy Azure, podczas gdy dane mogą być przetwarzane do wnioskowania w dowolnej lokalizacji usługi Azure OpenAI. Dowiedz się więcej o miejscu przechowywania danych |
❌Duże opóźnienie w/spójne małe opóźnienie | ❌Elastyczność płatności za połączenie |
Opóźnienie poszczególnych wywołań | Nie dotyczy (proces asynchroniczny oparty na plikach) | Zoptymalizowane pod kątem wywołań w czasie rzeczywistym i małych i średnich użycia woluminów. Klienci z wysokim użyciem woluminu mogą zobaczyć większą zmienność opóźnienia. Zestaw progów dla modelu | Zoptymalizowane pod kątem wywołań w czasie rzeczywistym i dużego użycia. | Zoptymalizowane pod kątem wywołań w czasie rzeczywistym i małych i średnich użycia woluminów. Klienci z wysokim użyciem woluminu mogą zobaczyć większą zmienność opóźnienia. Zestaw progów dla modelu | Zoptymalizowane pod kątem wywołań w czasie rzeczywistym i dużego użycia. |
Nazwa jednostki SKU w kodzie | GlobalBatch |
GlobalStandard |
GlobalProvisionedManaged |
Standard |
ProvisionedManaged |
Model rozliczania | Płatność za token | Płatność za token | Rozliczanie godzinowe z opcjonalnym zakupem rezerwacji miesięcznych lub rocznych | Płatność za token | Rozliczanie godzinowe z opcjonalnym zakupem rezerwacji miesięcznych lub rocznych |
Globalny standard
Ważne
Dane przechowywane w spoczynku pozostają w wyznaczonej lokalizacji geograficznej platformy Azure, podczas gdy dane mogą być przetwarzane do wnioskowania w dowolnej lokalizacji usługi Azure OpenAI. Dowiedz się więcej na temat rezydencji danych.
Wdrożenia globalne są dostępne w tych samych zasobach usługi Azure OpenAI co typy wdrożeń innych niż globalne, ale umożliwiają korzystanie z globalnej infrastruktury platformy Azure w celu dynamicznego kierowania ruchu do centrum danych z najlepszą dostępnością dla każdego żądania. Globalny standard zapewnia najwyższy limit przydziału domyślnego i eliminuje konieczność równoważenia obciążenia w wielu zasobach.
Klienci o dużej spójnego woluminie mogą mieć większe opóźnienie zmienności. Próg jest ustawiany dla modelu. Aby dowiedzieć się więcej, zobacz stronę przydziałów. W przypadku aplikacji, które wymagają mniejszej wariancji opóźnienia przy dużym użyciu obciążenia, zalecamy zakup aprowizowanej przepływności.
Globalna aprowizacja
Ważne
Dane przechowywane w spoczynku pozostają w wyznaczonej lokalizacji geograficznej platformy Azure, podczas gdy dane mogą być przetwarzane do wnioskowania w dowolnej lokalizacji usługi Azure OpenAI. Dowiedz się więcej na temat rezydencji danych.
Wdrożenia globalne są dostępne w tych samych zasobach usługi Azure OpenAI co typy wdrożeń innych niż globalne, ale umożliwiają korzystanie z globalnej infrastruktury platformy Azure w celu dynamicznego kierowania ruchu do centrum danych z najlepszą dostępnością dla każdego żądania. Globalne aprowizowanie wdrożeń zapewnia pojemność przetwarzania modelu zarezerwowanego na potrzeby wysokiej i przewidywalnej przepływności przy użyciu globalnej infrastruktury platformy Azure.
Partia globalna
Ważne
Dane przechowywane w spoczynku pozostają w wyznaczonej lokalizacji geograficznej platformy Azure, podczas gdy dane mogą być przetwarzane do wnioskowania w dowolnej lokalizacji usługi Azure OpenAI. Dowiedz się więcej na temat rezydencji danych.
Globalna partia jest przeznaczona do wydajnego obsługi zadań przetwarzania dużych i dużych ilości. Przetwarzaj asynchroniczne grupy żądań z oddzielnym limitem przydziału, z 24-godzinnym planem docelowym, przy mniejszym koszcie 50% niż w przypadku globalnego standardu. W przypadku przetwarzania wsadowego zamiast wysyłać jedno żądanie jednocześnie wysyłasz dużą liczbę żądań w jednym pliku. Globalne żądania wsadowe mają oddzielny limit przydziału tokenu w kolejce, co pozwala uniknąć zakłóceń obciążeń online.
Najważniejsze przypadki użycia:
Przetwarzanie danych na dużą skalę: szybko analizuj obszerne zestawy danych równolegle.
Generowanie zawartości: utwórz duże ilości tekstu, takie jak opisy produktów lub artykuły.
Przegląd dokumentów i podsumowanie: automatyzowanie przeglądu i podsumowania długich dokumentów.
Automatyzacja obsługi klienta: obsługa wielu zapytań jednocześnie w celu uzyskania szybszych odpowiedzi.
Wyodrębnianie i analiza danych: wyodrębnianie i analizowanie informacji z ogromnych ilości danych bez struktury.
Zadania przetwarzania języka naturalnego (NLP): wykonaj zadania, takie jak analiza tonacji lub tłumaczenie dużych zestawów danych.
Marketing i personalizacja: generowanie spersonalizowanej zawartości i rekomendacji na dużą skalę.
Standard strefy danych
Ważne
Dane przechowywane w spoczynku pozostają w wyznaczonej lokalizacji geograficznej platformy Azure, podczas gdy dane mogą być przetwarzane do wnioskowania w dowolnej lokalizacji usługi Azure OpenAI w określonej strefie danych firmy Microsoft. Dowiedz się więcej na temat rezydencji danych.
Standardowe wdrożenia strefy danych są dostępne w tym samym zasobie usługi Azure OpenAI co wszystkie inne typy wdrożeń usługi Azure OpenAI, ale umożliwiają dynamiczne kierowanie ruchu do centrum danych w strefie danych zdefiniowanej przez firmę Microsoft z najlepszą dostępnością dla każdego żądania. Standard strefy danych zapewnia wyższe domyślne limity przydziału niż typy wdrożeń opartych na lokalizacji geograficznej platformy Azure.
Klienci o dużej spójnego woluminie mogą mieć większe opóźnienie zmienności. Próg jest ustawiany dla modelu. Aby dowiedzieć się więcej, zobacz stronę Limity przydziału i limity. W przypadku obciążeń, które wymagają wariancji o małych opóźnieniach na dużym woluminie, zalecamy korzystanie z ofert wdrożeń aprowizowania.
Standardowa
Wdrożenia standardowe zapewniają model rozliczeń z płatnością za wywołanie w wybranym modelu. Zapewnia najszybszy sposób rozpoczęcia pracy, ponieważ płacisz tylko za to, co zużywasz. Modele dostępne w każdym regionie, a także przepływność mogą być ograniczone.
Wdrożenia w warstwie Standardowa są zoptymalizowane pod kątem obciążeń o małych i średnich woluminach o wysokiej wydajności. Klienci o dużej spójnego woluminie mogą mieć większe opóźnienie zmienności.
Zaaprowizowane
Aprowizowanie wdrożeń umożliwia określenie wymaganej przepływności we wdrożeniu. Następnie usługa przydziela niezbędną pojemność przetwarzania modelu i zapewnia, że jest gotowa. Przepływność jest definiowana pod względem aprowizowanej jednostki przepływności (PTU), która jest znormalizowanym sposobem reprezentowania przepływności dla danego wdrożenia. Każda para wersji modelu wymaga różnych ilości jednostek PTU do wdrożenia i zapewnienia różnych przepływności na jednostkę PTU. Dowiedz się więcej z artykułu Pojęcia dotyczące aprowizowanej przepływności.
Jak wyłączyć dostęp do wdrożeń globalnych w ramach subskrypcji
Usługa Azure Policy pomaga wymuszać standardy organizacyjne i oceniać zgodność na dużą skalę. Za pośrednictwem pulpitu nawigacyjnego zgodności udostępnia zagregowany widok umożliwiający ocenę ogólnego stanu środowiska, z możliwością przechodzenia do szczegółów poszczególnych zasobów i zasad. Pomaga również zapewnić zgodność zasobów dzięki korygowaniu zbiorczemu istniejących zasobów i automatycznemu korygowaniu nowych zasobów. Dowiedz się więcej o usłudze Azure Policy i określonych wbudowanych kontrolkach dla usług sztucznej inteligencji.
Poniższe zasady umożliwiają wyłączenie dostępu do globalnych wdrożeń usługi Azure OpenAI w warstwie Standardowa. Aby wyłączyć dostęp do globalnych wdrożeń aprowizowanych lub globalnych wdrożeń wsadowych platformy Azure, zastąp GlobalStandard
ciąg nazwą GlobalProvisionedManaged
lub GlobalBatch
dla zamierzonej nazwy jednostki SKU.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Wdrażanie modeli
Aby dowiedzieć się więcej o tworzeniu zasobów i wdrażaniu modeli, zapoznaj się z przewodnikiem tworzenia zasobów.