Quota en limieten voor Azure AI-modeldeductie in Azure AI-services
Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor de deductie van het Azure AI-model in Azure AI-services. Zie Quota en limieten in de Azure OpenAI-service voor quota en limieten die specifiek zijn voor de Azure OpenAI-service.
Referentie voor quota en limieten
In de volgende secties vindt u een beknopt overzicht van de standaardquota en limieten die van toepassing zijn op de deductieservice van het Azure AI-model in Azure AI-services:
Bronlimieten
Naam beperken | Limietwaarde |
---|---|
Resources voor Azure AI-services per regio per Azure-abonnement | 30 |
Maximum aantal implementaties per resource | 32 |
Frequentielimieten
Naam beperken | Limietwaarde |
---|---|
Tokens per minuut (Azure OpenAI-modellen) | Verschilt per model en SKU. Zie limieten voor Azure OpenAI. |
Tokens per minuut (rest van modellen) | 200.000 |
Aanvragen per minuut (Azure OpenAI-modellen) | Verschilt per model en SKU. Zie limieten voor Azure OpenAI. |
Aanvragen per minuut (rest van modellen) | 1000 |
Andere limieten
Naam beperken | Limietwaarde |
---|---|
Maximum aantal aangepaste headers in API-aanvragen1 | 10 |
1 Onze huidige API's staan maximaal 10 aangepaste headers toe, die via de pijplijn worden doorgegeven en geretourneerd. We hebben gemerkt dat sommige klanten dit aantal headers nu overschrijden, wat resulteert in HTTP 431-fouten. Er is geen oplossing voor deze fout, behalve om het volume van de header te verminderen. In toekomstige API-versies worden geen aangepaste headers meer doorgegeven. Klanten worden aangeraden niet afhankelijk te zijn van aangepaste headers in toekomstige systeemarchitecturen.
Gebruikslagen
Global Standard-implementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij klantverkeer dynamisch naar het datacenter wordt gerouteerd met de beste beschikbaarheid voor de deductieaanvragen van de klant. Dit maakt consistentere latentie mogelijk voor klanten met een laag tot gemiddeld verkeersniveau. Klanten met een hoog blijvend gebruiksniveau zien mogelijk meer variabiliteiten in reactielatentie.
De gebruikslimiet bepaalt het gebruiksniveau waarboven klanten grotere variabiliteit in reactielatentie kunnen zien. Het gebruik van een klant wordt per model gedefinieerd en is het totale aantal tokens dat wordt gebruikt voor alle implementaties in alle abonnementen in alle regio's voor een bepaalde tenant.
Algemene aanbevolen procedures om binnen frequentielimieten te blijven
Als u problemen met betrekking tot frequentielimieten wilt minimaliseren, is het een goed idee om de volgende technieken te gebruiken:
- Implementeert logica voor opnieuw proberen in uw toepassing.
- Vermijd grote wijzigingen in de workload. Verhoog de workload geleidelijk.
- Test verschillende patronen voor belastingverhoging.
- Verhoog het quotum dat is toegewezen aan uw implementatie. Het quotum verplaatsen van een andere implementatie, indien nodig.
Verhogingen aanvragen voor de standaardquota en limieten
Aanvragen voor quotumverhoging kunnen per aanvraag worden ingediend en geƫvalueerd. Dien een serviceaanvraag in.
Volgende stappen
- Meer informatie over de modellen die beschikbaar zijn in de deductieservice van het Azure AI-model