Delen via


Quota en limieten voor Azure AI-modeldeductie in Azure AI-services

Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor de deductie van het Azure AI-model in Azure AI-services. Zie Quota en limieten in de Azure OpenAI-service voor quota en limieten die specifiek zijn voor de Azure OpenAI-service.

Referentie voor quota en limieten

In de volgende secties vindt u een beknopt overzicht van de standaardquota en limieten die van toepassing zijn op de deductieservice van het Azure AI-model in Azure AI-services:

Bronlimieten

Naam beperken Limietwaarde
Resources voor Azure AI-services per regio per Azure-abonnement 30
Maximum aantal implementaties per resource 32

Frequentielimieten

Naam beperken Limietwaarde
Tokens per minuut (Azure OpenAI-modellen) Verschilt per model en SKU. Zie limieten voor Azure OpenAI.
Tokens per minuut (rest van modellen) 200.000
Aanvragen per minuut (Azure OpenAI-modellen) Verschilt per model en SKU. Zie limieten voor Azure OpenAI.
Aanvragen per minuut (rest van modellen) 1000

Andere limieten

Naam beperken Limietwaarde
Maximum aantal aangepaste headers in API-aanvragen1 10

1 Onze huidige API's staan maximaal 10 aangepaste headers toe, die via de pijplijn worden doorgegeven en geretourneerd. We hebben gemerkt dat sommige klanten dit aantal headers nu overschrijden, wat resulteert in HTTP 431-fouten. Er is geen oplossing voor deze fout, behalve om het volume van de header te verminderen. In toekomstige API-versies worden geen aangepaste headers meer doorgegeven. Klanten worden aangeraden niet afhankelijk te zijn van aangepaste headers in toekomstige systeemarchitecturen.

Gebruikslagen

Global Standard-implementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij klantverkeer dynamisch naar het datacenter wordt gerouteerd met de beste beschikbaarheid voor de deductieaanvragen van de klant. Dit maakt consistentere latentie mogelijk voor klanten met een laag tot gemiddeld verkeersniveau. Klanten met een hoog blijvend gebruiksniveau zien mogelijk meer variabiliteiten in reactielatentie.

De gebruikslimiet bepaalt het gebruiksniveau waarboven klanten grotere variabiliteit in reactielatentie kunnen zien. Het gebruik van een klant wordt per model gedefinieerd en is het totale aantal tokens dat wordt gebruikt voor alle implementaties in alle abonnementen in alle regio's voor een bepaalde tenant.

Algemene aanbevolen procedures om binnen frequentielimieten te blijven

Als u problemen met betrekking tot frequentielimieten wilt minimaliseren, is het een goed idee om de volgende technieken te gebruiken:

  • Implementeert logica voor opnieuw proberen in uw toepassing.
  • Vermijd grote wijzigingen in de workload. Verhoog de workload geleidelijk.
  • Test verschillende patronen voor belastingverhoging.
  • Verhoog het quotum dat is toegewezen aan uw implementatie. Het quotum verplaatsen van een andere implementatie, indien nodig.

Verhogingen aanvragen voor de standaardquota en limieten

Aanvragen voor quotumverhoging kunnen per aanvraag worden ingediend en geƫvalueerd. Dien een serviceaanvraag in.

Volgende stappen