Dela via


Översikt: Distribuera AI-modeller i Azure AI Foundry-portalen

Modellkatalogen i Azure AI Foundry-portalen är navet för att identifiera och använda ett brett utbud av modeller för att skapa generativa AI-program. Modeller måste distribueras för att göra dem tillgängliga för att ta emot slutsatsdragningsbegäranden. Processen att interagera med en distribuerad modell kallas slutsatsdragning. Azure AI Foundry erbjuder en omfattande uppsättning distributionsalternativ för dessa modeller beroende på dina behov och modellkrav.

Distribuera modeller

Distributionsalternativen varierar beroende på modelltyp:

  • Azure OpenAI-modeller: De senaste OpenAI-modellerna som har företagsfunktioner från Azure.
  • Modeller som en tjänstmodell: Dessa modeller kräver inte beräkningskvot från din prenumeration. Med det här alternativet kan du distribuera din modell som en tjänst (MaaS). Du använder en serverlös API-distribution och debiteras per token på ett betala per användning-sätt.
  • Öppna och anpassade modeller: Modellkatalogen ger åtkomst till en mängd olika modeller över olika former som har öppen åtkomst. Du kan vara värd för öppna modeller i din egen prenumeration med en hanterad infrastruktur, virtuella datorer och antalet instanser för kapacitetshantering. Det finns ett brett utbud av modeller från Azure OpenAI, Hugging Face och NVIDIA.

Azure AI Foundry erbjuder fyra olika distributionsalternativ:

Name Azure OpenAI Service Azure AI-modellinferenstjänst Serverlöst API Hantera databearbetning
Vilka modeller kan distribueras? Azure OpenAI-modeller Azure OpenAI-modeller och modeller som en tjänst Modeller som en tjänst Öppna och anpassade modeller
Distributionsresurs Azure OpenAI-resurs Azure AI-tjänstresurs AI-projektresurs AI-projektresurs
Passar bäst när Du planerar att endast använda OpenAI-modeller Du planerar att dra nytta av flaggskeppsmodellerna i Azure AI-katalogen, inklusive OpenAI. Du planerar att använda en enda modell från en specifik provider (exklusive OpenAI). Om du planerar att använda öppna modeller och du har tillräckligt med beräkningskvot i din prenumeration.
Faktureringsbaser Tokenanvändning och PTU Tokenanvändning Tokenanvändning1 Beräkningskärnans timmar2
Distributionsinstruktioner Distribuera till Azure OpenAI-tjänsten Distribuera till Azure AI-modellinferens Distribuera till serverlöst API Distribuera till hanterad beräkning

1 En minimal slutpunktsinfrastruktur faktureras per minut. Du debiteras inte för infrastrukturen som är värd för modellen i betala per användning. När du har tagit bort slutpunkten ackumuleras inga ytterligare avgifter.

2 Fakturering sker per minut, beroende på produktnivå och antalet instanser som använts i distributionen sedan skapandet. När du har tagit bort slutpunkten ackumuleras inga ytterligare avgifter.

Dricks

Mer information om hur du spårar kostnader finns i Övervaka kostnader för modeller som erbjuds via Azure Marketplace.

Hur ska jag tänka på distributionsalternativ?

Azure AI Foundry uppmuntrar kunderna att utforska distributionsalternativen och välja det som passar bäst för deras affärsbehov och tekniska behov. I allmänhet kan du använda följande tankeprocess:

  1. Börja med de distributionsalternativ som har större omfång. På så sätt kan du iterera och skapa prototyper snabbare i ditt program utan att behöva återskapa arkitekturen varje gång du bestämmer dig för att ändra något. Azure AI-modellinferenstjänsten är ett distributionsmål som stöder alla flaggskeppsmodeller i Azure AI-katalogen, inklusive den senaste innovationen från Azure OpenAI.

  2. När du vill använda en specifik modell:

    1. När du är intresserad av Azure OpenAI-modeller använder du Azure OpenAI-tjänsten som erbjuder ett brett utbud av funktioner för dem och den är utformad för dem.

    2. När du är intresserad av en viss modell från Modeller som en tjänst och du inte förväntar dig att använda någon annan typ av modell använder du serverlösa API-slutpunkter. De tillåter distribution av en enskild modell under en unik uppsättning slutpunkts-URL och nycklar.

  3. När din modell inte är tillgänglig i Modeller som en tjänst och du har beräkningskvot tillgänglig i din prenumeration använder du Managed Compute som stöder distribution av öppna och anpassade modeller. Det möjliggör också hög anpassningsnivå för distributionsslutledningsservern, protokollen och den detaljerade konfigurationen.

Dricks

Varje distributionsalternativ kan erbjuda olika funktioner när det gäller nätverk, säkerhet och ytterligare funktioner som innehållssäkerhet. Granska dokumentationen för var och en av dem för att förstå deras begränsningar.