Dołączanie aprowizowanych jednostek przepływności
W tym artykule przedstawiono proces dołączania do aprowizowanych jednostek przepływności (PTU). Po zakończeniu początkowego dołączania zalecamy zapoznanie się z przewodnikiem wprowadzenie do jednostki PTU.
Kiedy należy używać aprowizowanych jednostek przepływności (PTU)
Należy rozważyć przejście z wdrożeń standardowych na aprowizowanie wdrożeń, jeśli masz dobrze zdefiniowane, przewidywalne wymagania dotyczące przepływności i opóźnień. Zazwyczaj dzieje się tak, gdy aplikacja jest gotowa do produkcji lub została już wdrożona w środowisku produkcyjnym i istnieje wiedza na temat oczekiwanego ruchu. Dzięki temu użytkownicy mogą dokładnie prognozować wymaganą pojemność i unikać nieoczekiwanych rozliczeń.
Typowe scenariusze ptU
- Aplikacja gotowa do produkcji lub w środowisku produkcyjnym.
- Aplikacja, która ma przewidywalne oczekiwania dotyczące pojemności/użycia.
- Aplikacja ma wymagania dotyczące czasu rzeczywistego/opóźnienia.
Uwaga
W przypadku wywoływania funkcji i użycia agenta użycie tokenu może być zmienne. Przed migracją obciążeń do jednostek PTU należy szczegółowo zrozumieć oczekiwane użycie tokenów na minutę (TPM).
Ustalanie rozmiaru i szacowanie: aprowizowanie wdrożeń
Określenie odpowiedniej ilości aprowizowanej przepływności lub jednostek PTU, które są wymagane dla obciążenia, jest niezbędnym krokiem do optymalizacji wydajności i kosztów. Jeśli nie znasz różnych metod szacowania przepływności na poziomie systemu, zapoznaj się z zaleceniami dotyczącymi szacowania przepływności na poziomie systemu w naszej dokumentacji dotyczącej wydajności i opóźnień. W tej sekcji opisano sposób użycia kalkulatorów pojemności usługi Azure OpenAI w celu oszacowania liczby jednostek PTU wymaganych do obsługi danego obciążenia.
Szacowanie aprowizowanych jednostek przepływności i kosztów
Aby uzyskać szybkie oszacowanie obciążenia przy użyciu modułu TPM danych wejściowych i wyjściowych, skorzystaj z wbudowanego planisty pojemności w sekcji szczegółów wdrożenia na ekranie okna dialogowego wdrażania. Wbudowany planista pojemności jest częścią przepływu pracy wdrażania, który pomaga usprawnić ustalanie rozmiaru i przydzielanie przydziału do wdrożenia jednostki PTU dla danego obciążenia. Aby uzyskać więcej informacji na temat identyfikowania i szacowania danych modułu TPM, zapoznaj się z zaleceniami w dokumentacji dotyczącej wydajności i opóźnień.
Po wypełnieniu danych wejściowych i wyjściowych modułu TPM we wbudowanym kalkulatorze pojemności wybierz przycisk Oblicz , aby wyświetlić zalecenie dotyczące alokacji jednostek PTU.
Aby oszacować aprowizowaną pojemność przy użyciu danych na poziomie żądania, otwórz planistę pojemności w narzędziu Azure AI Studio. Kalkulator pojemności znajduje się w obszarze Przydział>modelu zasobów udostępnionych>Aprowizowanie usługi Azure OpenAI.
Opcja Aprowizowana i planista pojemności są dostępne tylko w niektórych regionach w okienku Limit przydziału, jeśli ta opcja nie jest widoczna, ustawienie regionu przydziału na Szwecja Środkowa spowoduje udostępnienie tej opcji. Wprowadź następujące parametry na podstawie obciążenia.
Dane wejściowe | opis |
---|---|
Model | Model OpenAI, którego planujesz użyć. Na przykład: GPT-4 |
Wersja | Wersja modelu, którego planujesz użyć, na przykład 0614 |
Szczytowe wywołania na minutę | Liczba wywołań na minutę, które mają być wysyłane do modelu |
Tokeny w wywołaniu monitu | Liczba tokenów w wierszu polecenia dla każdego wywołania modelu. Wywołania z większymi monitami wykorzystują więcej wdrożenia PTU. Obecnie ten kalkulator zakłada pojedynczą wartość monitu w przypadku obciążeń o szerokiej wariancji. Zalecamy przeprowadzenie testów porównawczych wdrożenia w ruchu w celu określenia najdokładniejszego oszacowania jednostek PTU potrzebnych do wdrożenia. |
Tokeny w odpowiedzi modelu | Liczba tokenów wygenerowanych na podstawie każdego wywołania modelu. Wywołania o większych rozmiarach generacji będą korzystać z większej liczby wdrożeń PTU. Obecnie ten kalkulator zakłada pojedynczą wartość monitu w przypadku obciążeń o szerokiej wariancji. Zalecamy przeprowadzenie testów porównawczych wdrożenia w ruchu w celu określenia najdokładniejszego oszacowania jednostek PTU potrzebnych do wdrożenia. |
Po wprowadzeniu wymaganych szczegółów wybierz przycisk Oblicz w kolumnie wyjściowej.
Wartości w kolumnie wyjściowej to szacowana wartość jednostek PTU wymaganych dla podanych danych wejściowych obciążenia. Pierwsza wartość wyjściowa reprezentuje szacowane jednostki PTU wymagane dla obciążenia zaokrąglone do najbliższego przyrostu skali PTU. Druga wartość wyjściowa reprezentuje nieprzetworzone szacowane jednostki PTU wymagane dla obciążenia. Sumy tokenów są obliczane przy użyciu następującego równania: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response)
.
Uwaga
Kalkulatory pojemności zapewniają oszacowanie na podstawie prostych kryteriów wejściowych. Najdokładniejszym sposobem określenia pojemności jest porównanie wdrożenia z obciążeniem reprezentującym dla danego przypadku użycia.
Opis modelu zakupu aprowizowanej przepływności
Aprowizowane i globalne aprowizowane elementy usługi Azure OpenAI są kupowane na żądanie co godzinę na podstawie liczby wdrożonych jednostek PTU, z znaczącym rabatem terminowym dostępnym za pośrednictwem zakupu rezerwacji platformy Azure.
Model godzinowy jest przydatny w przypadku krótkoterminowych potrzeb wdrażania, takich jak weryfikowanie nowych modeli lub uzyskiwanie pojemności na maratonie hackatonu. Jednak rabaty oferowane przez rezerwację platformy Azure dla usługi Azure OpenAI Provisioned i Global Provisioned są znaczne, a większość klientów z spójnym długoterminowym użyciem znajdzie model zarezerwowany, który będzie lepszym rozwiązaniem.
Uwaga
Aprowizowani klienci usługi Azure OpenAI dołączony przed sierpniową aktualizacją samoobsługową używają modelu zakupu o nazwie Model zobowiązania. Ci klienci mogą nadal używać tego starszego modelu zakupu wraz z modelem zakupu godzinowo/rezerwacji. Model zobowiązania nie jest dostępny dla nowych klientów. Aby uzyskać szczegółowe informacje na temat modelu zakupu zobowiązania i opcji współistnienia i migracji, zobacz aktualizację z sierpnia dla usługi Azure OpenAI Provisioned.
Użycie godzinowe
Aprowizowane i globalne wdrożenia aprowizowane są naliczane za stawkę godzinową ($/PTU/hr) dla liczby wdrożonych jednostek PTU. Na przykład za wdrożenie 300 PTU będą naliczane opłaty godzinowe 300. Wszystkie ceny usługi Azure OpenAI są dostępne w kalkulatorze cen platformy Azure.
Jeśli wdrożenie istnieje przez część godziny, otrzyma opłatę proporcjonalną na podstawie liczby minut, przez które została wdrożona w ciągu godziny. Na przykład wdrożenie, które istnieje przez 15 minut w ciągu godziny, otrzyma 1/4 godzinę opłaty godzinowej.
Jeśli rozmiar wdrożenia zostanie zmieniony, koszty wdrożenia zostaną dostosowane do nowej liczby jednostek PTU.
Płacenie za aprowizowane i globalne aprowizowania wdrożeń co godzinę jest idealne dla scenariuszy wdrażania krótkoterminowego. Na przykład: Test porównawczy jakości i wydajności nowych modeli lub tymczasowe zwiększenie pojemności PTU w celu pokrycia wydarzenia, takiego jak maraton hackathon.
Klienci, którzy wymagają długoterminowego użycia aprowizowania i globalnych wdrożeń aprowizowania, mogą jednak płacić znacznie mniej miesięcznie, kupując rabat terminowy za pośrednictwem rezerwacji platformy Azure, zgodnie z opisem w następnej sekcji.
Uwaga
Nie zaleca się skalowania wdrożeń produkcyjnych zgodnie z ruchem przychodzącym i płacenia za nie wyłącznie godzinowo. Istnieją dwa powody takiego działania:
- Oszczędności związane z kosztami osiągnięte przez zakup rezerwacji platformy Azure dla usługi Azure OpenAI są znaczące i w wielu przypadkach utrzymanie rozmiaru wdrożenia dla pełnego woluminu produkcyjnego płatnego za pośrednictwem rezerwacji niż skalowanie wdrożenia przy użyciu ruchu przychodzącego.
- Nieużywany przydział aprowizacji (PTU) nie gwarantuje, że pojemność będzie dostępna do obsługi zwiększania rozmiaru wdrożenia, jeśli jest to wymagane. Limit przydziału ogranicza maksymalną liczbę jednostek PTU, które można wdrożyć, ale nie jest to gwarancja pojemności. Aprowizowana pojemność dla każdego regionu i dynamicznie zmienia się w ciągu dnia i może być niedostępna, jeśli jest to wymagane. W związku z tym zaleca się utrzymanie stałego wdrożenia w celu pokrycia potrzeb związanych z ruchem (płatnych za pośrednictwem rezerwacji).
- Opłaty za wdrożenia w usuniętym zasobie będą kontynuowane do momentu przeczyszczania zasobu. Aby temu zapobiec, usuń wdrożenie zasobu przed usunięciem zasobu. Aby uzyskać więcej informacji, zobacz Odzyskiwanie lub przeczyszczanie usuniętych zasobów usług Azure AI.
Rezerwacje platformy Azure dla wdrożeń aprowizowania usługi Azure OpenAI
Rabaty na cenę użycia godzinowego można uzyskać, kupując rezerwację platformy Azure dla aprowizowania usługi Azure OpenAI i aprowizowaną globalnie. Rezerwacja platformy Azure to mechanizm rabatu na terminy współużytkowany przez wiele produktów platformy Azure. Na przykład obliczenia i usługa Cosmos DB. W przypadku aprowizowania usługi Azure OpenAI i aprowizacji globalnej rezerwacja zapewnia rabat za zobowiązanie się do płatności za stałą liczbę jednostek PTU w okresie jednego miesiąca lub jednego roku.
Rezerwacje platformy Azure są kupowane za pośrednictwem witryny Azure Portal, a nie za pośrednictwem witryny Azure AI Studio Link do witryny Azure Reservation Portal.
Rezerwacje są kupowane w regionie i mogą być elastycznie ograniczone do użycia z grupy wdrożeń. Zakresy rezerwacji obejmują:
Poszczególne grupy zasobów lub subskrypcje
Grupa subskrypcji w grupie zarządzania
Wszystkie subskrypcje na koncie rozliczeniowym
Nowe rezerwacje można kupić, aby obejmowały ten sam zakres co istniejące rezerwacje, aby umożliwić rabat na nowe aprowizowane wdrożenia. Zakres istniejących rezerwacji można również zaktualizować w dowolnym momencie bez kary, na przykład w celu pokrycia nowej subskrypcji.
Rezerwacje można anulować po zakupie, ale środki są ograniczone.
Jeśli rozmiar aprowizowanych wdrożeń w zakresie rezerwacji przekracza kwotę rezerwacji, nadwyżka jest naliczana według stawki godzinowej. Jeśli na przykład wdrożenia o wartości 250 jednostek PTU istnieją w zakresie rezerwacji 200 PTU, opłaty za 50 jednostek PTU będą naliczane co godzinę, dopóki rozmiary wdrożenia nie zostaną zmniejszone do 200 jednostek PTU lub zostanie utworzona nowa rezerwacja, aby pokryć pozostałe 50.
Rezerwacje gwarantują obniżoną cenę dla wybranego terminu. Nie rezerwują pojemności usługi ani nie gwarantują, że będzie ona dostępna po utworzeniu wdrożenia. Zdecydowanie zaleca się, aby klienci tworzyli wdrożenia przed zakupem rezerwacji, aby zapobiec nadmiernemu zakupieniu rezerwacji.
Ważne
Dostępność pojemności dla wdrożeń modelu jest dynamiczna i często zmienia się w różnych regionach i modelach. Aby zapobiec zakupieniu rezerwacji dla większej liczby jednostek PTU niż można użyć, najpierw utwórz wdrożenia, a następnie kup rezerwację platformy Azure, aby pokryć wdrożone jednostki PTU. To najlepsze rozwiązanie zapewni pełne wykorzystanie rabatu za rezerwację i uniemożliwi zakup zobowiązania terminowego, którego nie można użyć.
Wymagania dotyczące roli i zasad dzierżawy platformy Azure do zakupu rezerwacji różnią się od wymagań wymaganych do utworzenia wdrożenia lub zasobu usługi Azure OpenAI. Zweryfikuj autoryzację zakupu rezerwacji z wyprzedzeniem, aby to zrobić. Aby uzyskać więcej informacji, zobacz dokumentację rezerwacji aprowizowanej usługi Azure OpenAI.
Ważne: ustalanie rozmiaru zaaprowizowanych rezerwacji usługi Azure OpenAI
Kwoty jednostek PTU w zakupach rezerwacji są niezależne od jednostek PTU przydzielonych w ramach limitu przydziału lub używanego we wdrożeniach. Istnieje możliwość zakupu rezerwacji dla większej liczby jednostek PTU niż w ramach limitu przydziału lub wdrożenia dla żądanego regionu, modelu lub wersji. Środki na nadmierny zakup rezerwacji są ograniczone, a klienci muszą podjąć kroki w celu zapewnienia, że zachowają rozmiary rezerwacji zgodnie z wdrożonymi jednostkami PTU.
Najlepszym rozwiązaniem jest zawsze zakup rezerwacji po utworzeniu wdrożeń. Uniemożliwia to zakup rezerwacji, a następnie ustalenie, że wymagana pojemność nie jest dostępna dla żądanego regionu lub modelu.
Aby pomóc klientom w zakupie prawidłowych kwot rezerwacji. Łączna liczba jednostek PTU w subskrypcji i regionie, które mogą być objęte rezerwacją, znajduje się na stronie Limity przydziału usługi Azure AI Studio. Zobacz komunikat "Jednostki PTU dostępne do rezerwacji".
Zarządzanie rezerwacjami platformy Azure
Po utworzeniu rezerwacji najlepszym rozwiązaniem jest jego monitorowanie, aby upewnić się, że otrzymuje oczekiwane użycie. Można to zrobić za pośrednictwem witryny Azure Reservation Portal lub usługi Azure Monitor. Szczegółowe informacje na temat tych tematów i innych można znaleźć tutaj:
- Wyświetlanie wykorzystania rezerwacji platformy Azure
- Wyświetlanie transakcji zakupu i zwrotu kosztów rezerwacji platformy Azure
- Wyświetlanie zamortyzowanych kosztów korzyści
- Naliczanie kosztów rezerwacji platformy Azure
- Automatyczne odnawianie rezerwacji platformy Azure