Dela via


Slutsatsdragningskvoter och gränser för Azure AI-modeller i Azure AI-tjänster

Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoterna och gränserna för Azure AI-modellens slutsatsdragning i Azure AI-tjänster. Kvoter och begränsningar som är specifika för Azure OpenAI-tjänsten finns i Kvot och gränser i Azure OpenAI-tjänsten.

Referens för kvoter och gränser

I följande avsnitt får du en snabbguide till de standardkvoter och gränser som gäller för Azure AI-modellens slutsatsdragningstjänst i Azure AI-tjänster:

Resursgränser

Gränsnamn Gränsvärde
Azure AI-tjänstresurser per region per Azure-prenumeration 30
Maximalt antal distributioner per resurs 32

Hastighetsbegränsningar

Gränsnamn Gränsvärde
Token per minut (Azure OpenAI-modeller) Varierar per modell och SKU. Se gränser för Azure OpenAI.
Token per minut (resten av modellerna) 200.000
Begäranden per minut (Azure OpenAI-modeller) Varierar per modell och SKU. Se gränser för Azure OpenAI.
Begäranden per minut (resten av modellerna) 1 000

Andra gränser

Gränsnamn Gränsvärde
Maximalt antal anpassade rubriker i API-begäranden1 10

1 Våra aktuella API:er tillåter upp till 10 anpassade huvuden som skickas via pipelinen och returneras. Vi har märkt att vissa kunder nu överskrider det här antalet huvuden, vilket resulterar i HTTP 431-fel. Det finns ingen lösning på det här felet, förutom att minska rubrikvolymen. I framtida API-versioner passerar vi inte längre anpassade rubriker. Vi rekommenderar att kunderna inte är beroende av anpassade rubriker i framtida systemarkitekturer.

Användningsnivåer

Global Standard-distributioner använder Azures globala infrastruktur och dirigerar dynamiskt kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. Detta möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se fler variabiliteter i svarsfördröjningen.

Användningsgränsen avgör vilken användningsnivå som kunderna kan se större variabilitet i svarsfördröjningen. En kunds användning definieras per modell och är det totala antalet token som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.

Allmänna metodtips för att hålla sig inom hastighetsgränser

För att minimera problem som rör hastighetsbegränsningar är det en bra idé att använda följande tekniker:

  • Implementera logik för omprövning i ditt program.
  • Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
  • Testa olika mönster för att öka belastningen.
  • Öka den kvot som tilldelats distributionen. Flytta kvoten från en annan distribution om det behövs.

Begäran ökar till standardkvoterna och gränserna

Begäranden om kvotökning kan skickas och utvärderas per begäran. Skicka en tjänstbegäran.

Nästa steg