Udostępnij za pośrednictwem


Limity przydziału i limity wnioskowania modelu sztucznej inteligencji platformy Azure w usługach azure AI

Ten artykuł zawiera krótkie informacje i szczegółowy opis limitów przydziałów i limitów wnioskowania modelu sztucznej inteligencji platformy Azure w usługach azure AI. Aby uzyskać limity przydziału i limity specyficzne dla usługi Azure OpenAI, zobacz Limity przydziału i limity w usłudze Azure OpenAI.

Dokumentacja limitów przydziałów i limitów

Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi wnioskowania modelu AI platformy Azure w usługach Azure AI:

Limity zasobów

Nazwa limitu Wartość limitu
Zasoby usług azure AI na region na subskrypcję platformy Azure 30
Maksymalna liczba wdrożeń na zasób 32

Limity szybkości

Nazwa limitu Wartość limitu
Tokeny na minutę (modele usługi Azure OpenAI) Różni się w zależności od modelu i jednostki SKU. Zobacz limity dla usługi Azure OpenAI.
Tokeny na minutę (pozostałe modele) 200.000
Żądania na minutę (modele Azure OpenAI) Różni się w zależności od modelu i jednostki SKU. Zobacz limity dla usługi Azure OpenAI.
Żądania na minutę (reszta modeli) 1000

Inne limity

Nazwa limitu Wartość limitu
Maksymalna liczba nagłówków niestandardowych w żądaniachinterfejsu API 1 10

1 Nasze bieżące interfejsy API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez potok i zwracane. Zauważyliśmy, że niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, innego niż zmniejszenie woluminu nagłówka. W przyszłych wersjach interfejsu API nie będziemy już przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.

Warstwy użycia

Wdrożenia globalne w warstwie Standardowa używają globalnej infrastruktury platformy Azure, dynamicznie rozsyłają ruch klientów do centrum danych z najlepszą dostępnością dla żądań wnioskowania klienta. Umożliwia to bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć więcej wariabilności w przypadku opóźnień odpowiedzi.

Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane na model i to łączna liczba tokenów używanych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.

Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości

Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:

  • Zaimplementuj logikę ponawiania prób w aplikacji.
  • Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
  • Testuj różne wzorce zwiększania obciążenia.
  • Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.

Żądanie zwiększa się do domyślnych przydziałów i limitów

Żądania zwiększenia limitu przydziału można przesyłać i oceniać na żądanie. Prześlij żądanie obsługi.

Następne kroki