Limity przydziału i limity wnioskowania modelu sztucznej inteligencji platformy Azure w usługach azure AI
Ten artykuł zawiera krótkie informacje i szczegółowy opis limitów przydziałów i limitów wnioskowania modelu sztucznej inteligencji platformy Azure w usługach azure AI. Aby uzyskać limity przydziału i limity specyficzne dla usługi Azure OpenAI, zobacz Limity przydziału i limity w usłudze Azure OpenAI.
Dokumentacja limitów przydziałów i limitów
Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi wnioskowania modelu AI platformy Azure w usługach Azure AI:
Limity zasobów
Nazwa limitu | Wartość limitu |
---|---|
Zasoby usług azure AI na region na subskrypcję platformy Azure | 30 |
Maksymalna liczba wdrożeń na zasób | 32 |
Limity szybkości
Nazwa limitu | Wartość limitu |
---|---|
Tokeny na minutę (modele usługi Azure OpenAI) | Różni się w zależności od modelu i jednostki SKU. Zobacz limity dla usługi Azure OpenAI. |
Tokeny na minutę (pozostałe modele) | 200.000 |
Żądania na minutę (modele Azure OpenAI) | Różni się w zależności od modelu i jednostki SKU. Zobacz limity dla usługi Azure OpenAI. |
Żądania na minutę (reszta modeli) | 1000 |
Inne limity
Nazwa limitu | Wartość limitu |
---|---|
Maksymalna liczba nagłówków niestandardowych w żądaniachinterfejsu API 1 | 10 |
1 Nasze bieżące interfejsy API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez potok i zwracane. Zauważyliśmy, że niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, innego niż zmniejszenie woluminu nagłówka. W przyszłych wersjach interfejsu API nie będziemy już przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.
Warstwy użycia
Wdrożenia globalne w warstwie Standardowa używają globalnej infrastruktury platformy Azure, dynamicznie rozsyłają ruch klientów do centrum danych z najlepszą dostępnością dla żądań wnioskowania klienta. Umożliwia to bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć więcej wariabilności w przypadku opóźnień odpowiedzi.
Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane na model i to łączna liczba tokenów używanych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.
Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości
Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:
- Zaimplementuj logikę ponawiania prób w aplikacji.
- Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
- Testuj różne wzorce zwiększania obciążenia.
- Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.
Żądanie zwiększa się do domyślnych przydziałów i limitów
Żądania zwiększenia limitu przydziału można przesyłać i oceniać na żądanie. Prześlij żądanie obsługi.
Następne kroki
- Dowiedz się więcej o modelach dostępnych w usłudze wnioskowania modelu AI platformy Azure