Quota voor resources beheren en verhogen met Azure AI Foundry

Artikel
11/24/2024

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Quota biedt de flexibiliteit om de toewijzing van frequentielimieten actief te beheren voor de implementaties binnen uw abonnement. In dit artikel wordt het proces voor het beheren van quota voor uw virtuele Azure AI Foundry-machines en Azure OpenAI-modellen beschreven.

In Azure wordt gebruikgemaakt van limieten en quota om budgetoverschrijdingen als gevolg van fraude te voorkomen, en om binnen de beperkingen van de Azure-capaciteit te blijven. Het is ook een goede manier om de kosten voor beheerders te beheren. Houd rekening met deze limieten wanneer u de schaal aanpast aan de vereisten die door productieworkloads worden gesteld.

In dit artikel krijgt u meer informatie over:

Standaardlimieten voor Azure-resources
Quota op azure AI Foundry-hubniveau maken.
Uw quota en limieten weergeven
Quotum- en limietverhogingen aanvragen

Speciale overwegingen

Quota worden toegepast op elk abonnement in uw account. Als u meerdere abonnementen hebt, moet u een quotumverhoging aanvragen voor elk abonnement.

Een quotum is een tegoedlimiet voor Azure-resources, geen capaciteitsgarantie. Als u behoefte hebt aan grootschalige capaciteit, kunt u contact opnemen met Azure-ondersteuning om uw quotum te verhogen.

Notitie

Azure AI Foundry Compute heeft een afzonderlijk quotum van het kernrekenquotum.

Standaardlimieten zijn afhankelijk van het type categorie van de aanbieding, zoals gratis proefversies, betalen per gebruik en per VM-serie, zoals Dv2, F, G, enz.

Azure AI Foundry-quotum

De volgende acties in de Azure AI Foundry-portal verbruiken quotum:

Een rekenproces maken.
Een vectorindex bouwen.
Open modellen implementeren vanuit de modelcatalogus.

Azure AI Foundry Compute

Azure AI Foundry compute heeft een standaardquotumlimiet voor zowel het aantal kernen als het aantal unieke rekenresources dat per regio in een abonnement is toegestaan.

Het quotum voor het aantal kernen wordt gesplitst door elke VM-serie en cumulatieve totale kernen.
Het quotum voor het aantal unieke rekenresources per regio is gescheiden van het VM-kernquotum, omdat dit alleen van toepassing is op de beheerde rekenresources

Als u de limieten voor berekeningen wilt verhogen, kunt u een quotumverhoging aanvragen in Azure AI Foundry.

Beschikbare resources zijn onder andere:

Toegewezen kernen per regio hebben een standaardlimiet van 24 tot 300, afhankelijk van het type abonnementsaanbieding. U kunt het aantal toegewezen kernen per abonnement voor elke VM-familie verhogen. Gespecialiseerde VM-families, zoals NCv2, NCv3 of ND-serie, beginnen met een standaardwaarde van nul kernen. GPU's zijn ook standaard ingesteld op nul kernen.
De totale rekenlimiet per regio heeft een standaardlimiet van 500 per regio binnen een bepaald abonnement en kan worden verhoogd tot een maximumwaarde van 2500 per regio. Deze limiet wordt gedeeld tussen rekeninstanties en beheerde online-eindpuntimplementaties. Een rekenproces wordt beschouwd als een cluster met één knooppunt voor quotumdoeleinden. Als u de totale rekenlimiet wilt verhogen, opent u een onlineaanvraag voor klantenondersteuning.

Wanneer u de ondersteuningsaanvraag opent om de totale rekenlimiet te verhogen, geeft u de volgende informatie op:

Selecteer Technisch voor het probleemtype.
Selecteer het abonnement waarvoor u het quotum wilt verhogen.
Selecteer Machine Learning als het servicetype.
Selecteer de resource waarvoor u het quotum wilt verhogen.
Voer in het veld Samenvatting 'Totale rekenlimieten verhogen' in
Selecteer Rekenproces het probleemtype en quotum als het subtype van het probleem.
Selecteer Volgende.
Geef op de pagina Aanvullende details de abonnements-id, regio, nieuwe limiet op (tussen 500 en 2500) en zakelijke redenen om de totale rekenlimieten voor de regio te verhogen.
Selecteer Maken om het ticket voor de ondersteuningsaanvraag in te dienen.

Gedeeld quotum voor Azure AI Foundry

Azure AI Foundry biedt een groep gedeelde quota die beschikbaar is voor verschillende gebruikers in verschillende regio's die gelijktijdig kunnen worden gebruikt. Afhankelijk van de beschikbaarheid hebben gebruikers tijdelijk toegang tot het quotum van de gedeelde pool en kunnen ze het quotum gebruiken om gedurende een beperkte periode tests uit te voeren. De specifieke tijdsduur is afhankelijk van de use-case. Door tijdelijk quotum uit de quotumgroep te gebruiken, hoeft u geen ondersteuningsticket meer in te dienen voor een verhoging van het quotum op korte termijn of te wachten totdat uw quotumaanvraag is goedgekeurd voordat u verder kunt gaan met uw workload.

Het gebruik van de gedeelde quotumgroep is beschikbaar voor het testen van deductie voor Llama-2, Phi, Nemotron, Mistral, Dolly en Deci-DeciLM-modellen uit de modelcatalogus. U moet het gedeelde quotum alleen gebruiken voor het maken van tijdelijke testeindpunten, niet voor productie-eindpunten. Voor eindpunten in productie moet u een toegewezen quotum aanvragen. Facturering voor gedeeld quotum is gebaseerd op gebruik, net zoals facturering voor toegewezen virtuele-machinefamilies.

Container Instances

Zie Container Instances-limieten voor meer informatie.

Storage

Azure Storage heeft een limiet van 250 opslagaccounts per regio, per abonnement. Deze limiet omvat zowel Standard- als Premium-opslagaccounts.

Quota weergeven en aanvragen in de Azure AI Foundry-portal

Gebruik quota voor het beheren van de toewijzing van rekendoelen tussen meerdere Azure AI Foundry-hubs in hetzelfde abonnement.

Standaard delen alle hubs hetzelfde quotum als het quotum op abonnementsniveau voor VM-families. U kunt echter een maximumquotum instellen voor afzonderlijke VM-families voor gedetailleerdere kostenbeheer en -governance op hubs in een abonnement. Met quota voor afzonderlijke VM-families kunt u capaciteit delen en problemen met resourceconflicten voorkomen.

Selecteer in de Azure AI Foundry-portal het beheercentrum in het linkermenu.
Selecteer Quota in het linkermenu.
In de quotumweergave ziet u het quotum voor de modellen in de geselecteerde Azure-regio. Als u meer quotum wilt aanvragen, selecteert u het model en selecteert u vervolgens Aanvraagquotum.
- Gebruik de wisselknop Alle quota weergeven om alle quota of alleen het momenteel toegewezen quotum weer te geven.
- Gebruik de vervolgkeuzelijst Groeperen op om de lijst te groeperen op quotumtype, regio & model, quotumtype, model en regio of geen. Met de groepering Geen wordt een lijst met modelimplementaties weergegeven.
- Vouw de groeperingen uit om informatie over specifieke modelimplementaties weer te geven. Selecteer tijdens het bekijken van een modelimplementatie het potloodpictogram in de kolom Quotatoewijzing om de quotumtoewijzing voor de modelimplementatie te bewerken.
- Gebruik de grafieken aan de zijkant van de pagina om meer informatie over het quotumgebruik weer te geven. De grafieken zijn interactief; Als u de muisaanwijzer boven een sectie van de grafiek beweegt, wordt meer informatie weergegeven en wordt de lijst met modellen gefilterd door de grafiek te selecteren. Als u de grafieklegenda selecteert, worden de gegevens gefilterd die in de grafiek worden weergegeven.
- Gebruik de koppeling Ingericht voor Azure OpenAI om informatie over ingerichte modellen weer te geven, inclusief een capaciteitscalculator.
Wanneer u de koppeling vm-quotum selecteert, kunt u het quotum en het gebruik voor de virtuele-machinefamilies in de geselecteerde Azure-regio bekijken. Als u meer quotum wilt aanvragen, selecteert u de VM-familie en selecteert u vervolgens Quotum aanvragen.

Delen via