Implementatietypen in azure AI-modeldeductie

Artikel
01/30/2025

Azure AI-modeldeductie in Azure AI-services biedt klanten keuzes in de hostingstructuur die past bij hun bedrijfs- en gebruikspatronen. De service biedt twee hoofdtypen implementatie: standaard en ingericht. Standard wordt aangeboden met een globale implementatieoptie, waarbij verkeer wereldwijd wordt gerouteerd om een hogere doorvoer te bieden. Ingericht wordt ook aangeboden met een globale implementatieoptie, zodat klanten ingerichte doorvoereenheden kunnen aanschaffen en implementeren in de wereldwijde Infrastructuur van Azure.

Alle implementaties kunnen exact dezelfde deductiebewerkingen uitvoeren, maar de facturering, schaal en prestaties verschillen aanzienlijk. Als onderdeel van uw oplossingsontwerp moet u twee belangrijke beslissingen nemen:

Gegevenslocatiebehoeften: globale versus regionale resources
Oproepvolume: standaard versus ingericht

Ondersteuning voor implementatietypen verschilt per model- en modelprovider. U kunt zien welk implementatietype (SKU) elk model ondersteunt in de sectie Modellen.

Globale versus regionale implementatietypen

Voor standaardimplementaties en ingerichte implementaties hebt u een optie van twee typen configuraties binnen uw resource: globaal of regionaal. Globale standaard is het aanbevolen uitgangspunt.

Globale implementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij klantverkeer dynamisch naar het datacenter wordt gerouteerd met de beste beschikbaarheid voor de deductieaanvragen van de klant. Dit betekent dat u de hoogste initiële doorvoerlimieten en de beste model beschikbaarheid krijgt met Global, terwijl u nog steeds onze SLA voor uptime en lage latentie levert. Voor workloads met een hoog volume boven de opgegeven gebruikslagen op standard en globale standaard kan er een grotere latentievariatie optreden. Voor klanten die de variantie van de lagere latentie bij een groot workloadgebruik vereisen, raden we u aan om ingerichte doorvoer aan te schaffen.

Onze wereldwijde implementaties zijn de eerste locatie voor alle nieuwe modellen en functies. Klanten met grote doorvoervereisten moeten rekening houden met onze ingerichte implementatieaanbiedingen.

Standaard

Standaardimplementaties bieden een factureringsmodel voor betalen per aanroep op het gekozen model. Biedt de snelste manier om aan de slag te gaan, omdat u alleen betaalt voor wat u verbruikt. Modellen die beschikbaar zijn in elke regio en doorvoer zijn mogelijk beperkt.

Standaardimplementaties zijn geoptimaliseerd voor workloads met een laag tot gemiddeld volume met een hoge burstiviteit. Klanten met een hoog consistent volume kunnen meer latentievariabiliteit ervaren.

Alleen Azure OpenAI-modellen ondersteunen dit implementatietype.

Algemene standaard

Globale implementaties zijn beschikbaar in dezelfde Azure AI-servicesbronnen als niet-globale implementatietypen, maar u kunt de globale infrastructuur van Azure gebruiken om verkeer dynamisch naar het datacenter te routeren met de beste beschikbaarheid voor elke aanvraag. Globale standaard biedt het hoogste standaardquotum en elimineert de noodzaak om taken over meerdere resources te verdelen.

Klanten met een hoog consistent volume kunnen meer latentievariabiliteit ervaren. De drempelwaarde wordt per model ingesteld. Voor toepassingen waarvoor de variantie van de lagere latentie bij een groot workloadgebruik is vereist, raden we u aan om indien beschikbaar ingerichte doorvoer aan te schaffen.

Globaal ingericht

Globale implementaties zijn beschikbaar in dezelfde Azure AI-servicesbronnen als niet-globale implementatietypen, maar u kunt de globale infrastructuur van Azure gebruiken om verkeer dynamisch naar het datacenter te routeren met de beste beschikbaarheid voor elke aanvraag. Globale ingerichte implementaties bieden gereserveerde modelverwerkingscapaciteit voor hoge en voorspelbare doorvoer met behulp van de globale Azure-infrastructuur.

Alleen Azure OpenAI-modellen ondersteunen dit implementatietype.

Volgende stappen

Quota & limieten

Delen via