Slutsatsdragningskvoter och gränser för Azure AI-modeller i Azure AI-tjänster
Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoterna och gränserna för Azure AI-modellens slutsatsdragning i Azure AI-tjänster. Kvoter och begränsningar som är specifika för Azure OpenAI-tjänsten finns i Kvot och gränser i Azure OpenAI-tjänsten.
Referens för kvoter och gränser
I följande avsnitt får du en snabbguide till de standardkvoter och gränser som gäller för Azure AI-modellens slutsatsdragningstjänst i Azure AI-tjänster:
Resursgränser
Gränsnamn | Gränsvärde |
---|---|
Azure AI-tjänstresurser per region per Azure-prenumeration | 30 |
Maximalt antal distributioner per resurs | 32 |
Hastighetsbegränsningar
Gränsnamn | Gränsvärde |
---|---|
Token per minut (Azure OpenAI-modeller) | Varierar per modell och SKU. Se gränser för Azure OpenAI. |
Token per minut (resten av modellerna) | 200.000 |
Begäranden per minut (Azure OpenAI-modeller) | Varierar per modell och SKU. Se gränser för Azure OpenAI. |
Begäranden per minut (resten av modellerna) | 1 000 |
Andra gränser
Gränsnamn | Gränsvärde |
---|---|
Maximalt antal anpassade rubriker i API-begäranden1 | 10 |
1 Våra aktuella API:er tillåter upp till 10 anpassade huvuden som skickas via pipelinen och returneras. Vi har märkt att vissa kunder nu överskrider det här antalet huvuden, vilket resulterar i HTTP 431-fel. Det finns ingen lösning på det här felet, förutom att minska rubrikvolymen. I framtida API-versioner passerar vi inte längre anpassade rubriker. Vi rekommenderar att kunderna inte är beroende av anpassade rubriker i framtida systemarkitekturer.
Användningsnivåer
Global Standard-distributioner använder Azures globala infrastruktur och dirigerar dynamiskt kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. Detta möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se fler variabiliteter i svarsfördröjningen.
Användningsgränsen avgör vilken användningsnivå som kunderna kan se större variabilitet i svarsfördröjningen. En kunds användning definieras per modell och är det totala antalet token som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.
Allmänna metodtips för att hålla sig inom hastighetsgränser
För att minimera problem som rör hastighetsbegränsningar är det en bra idé att använda följande tekniker:
- Implementera logik för omprövning i ditt program.
- Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
- Testa olika mönster för att öka belastningen.
- Öka den kvot som tilldelats distributionen. Flytta kvoten från en annan distribution om det behövs.
Begäran ökar till standardkvoterna och gränserna
Begäranden om kvotökning kan skickas och utvärderas per begäran. Skicka en tjänstbegäran.
Nästa steg
- Läs mer om de modeller som är tillgängliga i Azure AI-modellens slutsatsdragningstjänst