Översikt: Distribuera AI-modeller i Azure AI Foundry-portalen
Modellkatalogen i Azure AI Foundry-portalen är navet för att identifiera och använda ett brett utbud av modeller för att skapa generativa AI-program. Modeller måste distribueras för att göra dem tillgängliga för att ta emot slutsatsdragningsbegäranden. Processen att interagera med en distribuerad modell kallas slutsatsdragning. Azure AI Foundry erbjuder en omfattande uppsättning distributionsalternativ för dessa modeller beroende på dina behov och modellkrav.
Distribuera modeller
Distributionsalternativen varierar beroende på modelltyp:
- Azure OpenAI-modeller: De senaste OpenAI-modellerna som har företagsfunktioner från Azure.
- Modeller som en tjänstmodell: Dessa modeller kräver inte beräkningskvot från din prenumeration. Med det här alternativet kan du distribuera din modell som en tjänst (MaaS). Du använder en serverlös API-distribution och debiteras per token på ett betala per användning-sätt.
- Öppna och anpassade modeller: Modellkatalogen ger åtkomst till en mängd olika modeller över olika former som har öppen åtkomst. Du kan vara värd för öppna modeller i din egen prenumeration med en hanterad infrastruktur, virtuella datorer och antalet instanser för kapacitetshantering. Det finns ett brett utbud av modeller från Azure OpenAI, Hugging Face och NVIDIA.
Azure AI Foundry erbjuder fyra olika distributionsalternativ:
Name | Azure OpenAI Service | Azure AI-modellinferenstjänst | Serverlöst API | Hantera databearbetning |
---|---|---|---|---|
Vilka modeller kan distribueras? | Azure OpenAI-modeller | Azure OpenAI-modeller och modeller som en tjänst | Modeller som en tjänst | Öppna och anpassade modeller |
Distributionsresurs | Azure OpenAI-resurs | Azure AI-tjänstresurs | AI-projektresurs | AI-projektresurs |
Passar bäst när | Du planerar att endast använda OpenAI-modeller | Du planerar att dra nytta av flaggskeppsmodellerna i Azure AI-katalogen, inklusive OpenAI. | Du planerar att använda en enda modell från en specifik provider (exklusive OpenAI). | Om du planerar att använda öppna modeller och du har tillräckligt med beräkningskvot i din prenumeration. |
Faktureringsbaser | Tokenanvändning och PTU | Tokenanvändning | Tokenanvändning1 | Beräkningskärnans timmar2 |
Distributionsinstruktioner | Distribuera till Azure OpenAI-tjänsten | Distribuera till Azure AI-modellinferens | Distribuera till serverlöst API | Distribuera till hanterad beräkning |
1 En minimal slutpunktsinfrastruktur faktureras per minut. Du debiteras inte för infrastrukturen som är värd för modellen i betala per användning. När du har tagit bort slutpunkten ackumuleras inga ytterligare avgifter.
2 Fakturering sker per minut, beroende på produktnivå och antalet instanser som använts i distributionen sedan skapandet. När du har tagit bort slutpunkten ackumuleras inga ytterligare avgifter.
Dricks
Mer information om hur du spårar kostnader finns i Övervaka kostnader för modeller som erbjuds via Azure Marketplace.
Hur ska jag tänka på distributionsalternativ?
Azure AI Foundry uppmuntrar kunderna att utforska distributionsalternativen och välja det som passar bäst för deras affärsbehov och tekniska behov. I allmänhet kan du använda följande tankeprocess:
Börja med de distributionsalternativ som har större omfång. På så sätt kan du iterera och skapa prototyper snabbare i ditt program utan att behöva återskapa arkitekturen varje gång du bestämmer dig för att ändra något. Azure AI-modellinferenstjänsten är ett distributionsmål som stöder alla flaggskeppsmodeller i Azure AI-katalogen, inklusive den senaste innovationen från Azure OpenAI.
När du vill använda en specifik modell:
När du är intresserad av Azure OpenAI-modeller använder du Azure OpenAI-tjänsten som erbjuder ett brett utbud av funktioner för dem och den är utformad för dem.
När du är intresserad av en viss modell från Modeller som en tjänst och du inte förväntar dig att använda någon annan typ av modell använder du serverlösa API-slutpunkter. De tillåter distribution av en enskild modell under en unik uppsättning slutpunkts-URL och nycklar.
När din modell inte är tillgänglig i Modeller som en tjänst och du har beräkningskvot tillgänglig i din prenumeration använder du Managed Compute som stöder distribution av öppna och anpassade modeller. Det möjliggör också hög anpassningsnivå för distributionsslutledningsservern, protokollen och den detaljerade konfigurationen.
Dricks
Varje distributionsalternativ kan erbjuda olika funktioner när det gäller nätverk, säkerhet och ytterligare funktioner som innehållssäkerhet. Granska dokumentationen för var och en av dem för att förstå deras begränsningar.