Udostępnij za pośrednictwem


Typy wdrożeń w wnioskowaniu modelu AI platformy Azure

Wnioskowanie modelu sztucznej inteligencji platformy Azure w usługach Azure AI zapewnia klientom wybór struktury hostingu, która pasuje do wzorców biznesowych i użycia. Usługa oferuje dwa główne typy wdrożenia: standardowy i aprowizowany. Standard jest oferowany z opcją globalnego wdrażania, routing ruchu globalnego w celu zapewnienia wyższej przepływności. Aprowizowanie jest również oferowane za pomocą globalnej opcji wdrażania, dzięki czemu klienci mogą kupować i wdrażać aprowizowane jednostki przepływności w globalnej infrastrukturze platformy Azure.

Wszystkie wdrożenia mogą wykonywać dokładnie te same operacje wnioskowania, jednak rozliczenia, skala i wydajność są znacznie inne. W ramach projektu rozwiązania należy podjąć dwie kluczowe decyzje:

  • Wymagania dotyczące rezydencji danych: zasoby globalne a regionalne
  • Wolumin wywołań: standardowy a aprowizowany

Obsługa typów wdrożeń zależy od modelu i dostawcy modelu.

Typy wdrożeń globalnych i regionalnych

W przypadku wdrożeń standardowych i aprowizowanych można skorzystać z dwóch typów konfiguracji w ramach zasobu — globalnego lub regionalnego. Globalny standard jest zalecanym punktem wyjścia.

Wdrożenia globalne korzystają z globalnej infrastruktury platformy Azure, dynamicznie kierują ruch klientów do centrum danych z najlepszą dostępnością żądań wnioskowania klienta. Oznacza to, że uzyskujesz najwyższe początkowe limity przepływności i najlepszą dostępność modelu z globalną, jednocześnie zapewniając umowę SLA czasu pracy i małe opóźnienia. W przypadku obciążeń o dużej ilości powyżej określonych warstw użycia w warstwie Standardowa i globalnej może wystąpić zwiększona zmienność opóźnień. W przypadku klientów, którzy wymagają mniejszej wariancji opóźnienia w przypadku dużego użycia obciążeń, zalecamy zakup aprowizowanej przepływności.

Nasze wdrożenia globalne są pierwszą lokalizacją dla wszystkich nowych modeli i funkcji. Klienci z bardzo dużymi wymaganiami dotyczącymi przepływności powinni rozważyć naszą aprowizowaną ofertę wdrażania.

Standardowa

Wdrożenia standardowe zapewniają model rozliczeń z płatnością za wywołanie w wybranym modelu. Zapewnia najszybszy sposób rozpoczęcia pracy, ponieważ płacisz tylko za to, co zużywasz. Modele dostępne w każdym regionie, a także przepływność mogą być ograniczone.

Wdrożenia w warstwie Standardowa są zoptymalizowane pod kątem obciążeń o małych i średnich woluminach o wysokiej wydajności. Klienci o dużej spójnego woluminie mogą mieć większe opóźnienie zmienności.

Ten typ wdrożenia obsługuje tylko modele usługi Azure OpenAI.

Globalny standard

Wdrożenia globalne są dostępne w tych samych zasobach usług azure AI co typy wdrożeń nieglobalnych, ale umożliwiają dynamiczne kierowanie ruchu do centrum danych z najlepszą dostępnością dla każdego żądania za pomocą globalnej infrastruktury platformy Azure. Globalny standard zapewnia najwyższy limit przydziału domyślnego i eliminuje konieczność równoważenia obciążenia w wielu zasobach.

Klienci o dużej spójnego woluminie mogą mieć większe opóźnienie zmienności. Próg jest ustawiany dla modelu. W przypadku aplikacji, które wymagają mniejszej wariancji opóźnienia przy dużym użyciu obciążenia, zalecamy zakup aprowizowanej przepływności, jeśli jest dostępna.

Globalna aprowizacja

Wdrożenia globalne są dostępne w tych samych zasobach usług azure AI co typy wdrożeń nieglobalnych, ale umożliwiają korzystanie z globalnej infrastruktury platformy Azure w celu dynamicznego kierowania ruchu do centrum danych z najlepszą dostępnością dla każdego żądania. Globalne aprowizowanie wdrożeń zapewnia pojemność przetwarzania modelu zarezerwowanego na potrzeby wysokiej i przewidywalnej przepływności przy użyciu globalnej infrastruktury platformy Azure.

Ten typ wdrożenia obsługuje tylko modele usługi Azure OpenAI.