Använda språkmodeller
Organisationer och utvecklare kan träna sina egna språkmodeller från grunden, men i de flesta fall är det mer praktiskt att använda en befintlig grundmodell och eventuellt finjustera den med dina egna träningsdata. Det finns många modellkällor som du kan använda.
I Microsoft Azure hittar du grundmodeller i Azure OpenAI-tjänsten och i modellkatalogen. Modellkatalogen är en kuraterad modellkälla för dataforskare och utvecklare som använder Azure AI Studio och Azure Machine Learning. Detta ger fördelen med banbrytande språkmodeller som gpt-samlingen (generative pre-trained transformer) modeller (som ChatGPT och Microsofts egna generativa AI-tjänster baseras på) samt DALL-E-modellen för bildgenerering. Att använda dessa modeller från Azure OpenAI-tjänsten innebär att du också får fördelen av en säker, skalbar Azure-molnplattform där modellerna finns.
Förutom Azure OpenAI-modellerna innehåller modellkatalogen de senaste modellerna med öppen källkod från Microsoft och flera partner, inklusive:
- OpenAI
- HuggingFace
- Mistral
- Meta och andra.
Några vanliga Azure OpenAI-modeller är:
- GPT-3.5-Turbo, GPT-4 och GPT-4o: Språkmodeller för konversation och meddelande ut.
- GPT-4 Turbo with Vision: En språkmodell utvecklad av OpenAI som kan analysera bilder och ge textsvar på frågor om dem. Den innehåller både bearbetning av naturligt språk och visuell förståelse.
- DALL-E: En språkmodell som genererar originalbilder, varianter av bilder och kan redigera bilder.
Stora och små språkmodeller
Det finns många tillgängliga språkmodeller som du kan använda för att driva generativa AI-program. I allmänhet kan språkmodeller beaktas i två kategoriser: Stora språkmodeller (LLM) och små språkmodeller (SLM).
Stora språkmodeller (LLM: er) | Små språkmodeller (SLA) |
---|---|
LLM:er tränas med stora mängder text som representerar ett brett spektrum av allmänna ämnen – vanligtvis genom att hämta data från Internet och andra allmänt tillgängliga publikationer. | SLA tränas med mindre, mer ämnesfokuserade datamängder |
När de tränas har LLM:er många miljarder (till och med biljoner) parametrar (vikter som kan tillämpas på vektorbäddningar för att beräkna förutsagda tokensekvenser). | Har vanligtvis färre parametrar än LLM:er. |
Kunna uppvisa omfattande språkgenereringsfunktioner i en mängd olika konversationskontexter. | Detta fokuserade ordförråd gör dem mycket effektiva i specifika konversationsämnen, men mindre effektiva vid mer allmän språkgenerering. |
Deras stora storlek kan påverka deras prestanda och göra dem svåra att distribuera lokalt på enheter och datorer. | Den mindre storleken på SLA:er kan ge fler alternativ för distribution, inklusive lokal distribution till enheter och lokala datorer. och gör dem snabbare och enklare att finjustera. |
Att finjustera modellen med ytterligare data för att anpassa ämnesexpertisen kan vara tidskrävande och dyrt när det gäller den beräkningskraft som krävs för att utföra den ytterligare utbildningen. | Finjustering kan potentiellt vara mindre tidskrävande och dyrt. |