Använda språkmodeller

3 minuter

Organisationer och utvecklare kan träna sina egna språkmodeller från grunden, men i de flesta fall är det mer praktiskt att använda en befintlig grundmodell och eventuellt finjustera den med dina egna träningsdata. Det finns många modellkällor som du kan använda.

I Microsoft Azure hittar du grundmodeller i Azure OpenAI-tjänsten och i modellkatalogen. Modellkatalogen är en kuraterad modellkälla för dataforskare och utvecklare som använder Azure AI Studio och Azure Machine Learning. Detta ger fördelen med banbrytande språkmodeller som gpt-samlingen (generative pre-trained transformer) modeller (som ChatGPT och Microsofts egna generativa AI-tjänster baseras på) samt DALL-E-modellen för bildgenerering. Att använda dessa modeller från Azure OpenAI-tjänsten innebär att du också får fördelen av en säker, skalbar Azure-molnplattform där modellerna finns.

Förutom Azure OpenAI-modellerna innehåller modellkatalogen de senaste modellerna med öppen källkod från Microsoft och flera partner, inklusive:

OpenAI
HuggingFace
Mistral
Meta och andra.

Några vanliga Azure OpenAI-modeller är:

GPT-3.5-Turbo, GPT-4 och GPT-4o: Språkmodeller för konversation och meddelande ut.
GPT-4 Turbo with Vision: En språkmodell utvecklad av OpenAI som kan analysera bilder och ge textsvar på frågor om dem. Den innehåller både bearbetning av naturligt språk och visuell förståelse.
DALL-E: En språkmodell som genererar originalbilder, varianter av bilder och kan redigera bilder.

Stora och små språkmodeller

Det finns många tillgängliga språkmodeller som du kan använda för att driva generativa AI-program. I allmänhet kan språkmodeller beaktas i två kategoriser: Stora språkmodeller (LLM) och små språkmodeller (SLM).

Stora språkmodeller (LLM: er)	Små språkmodeller (SLA)
LLM:er tränas med stora mängder text som representerar ett brett spektrum av allmänna ämnen – vanligtvis genom att hämta data från Internet och andra allmänt tillgängliga publikationer.	SLA tränas med mindre, mer ämnesfokuserade datamängder
När de tränas har LLM:er många miljarder (till och med biljoner) parametrar (vikter som kan tillämpas på vektorbäddningar för att beräkna förutsagda tokensekvenser).	Har vanligtvis färre parametrar än LLM:er.
Kunna uppvisa omfattande språkgenereringsfunktioner i en mängd olika konversationskontexter.	Detta fokuserade ordförråd gör dem mycket effektiva i specifika konversationsämnen, men mindre effektiva vid mer allmän språkgenerering.
Deras stora storlek kan påverka deras prestanda och göra dem svåra att distribuera lokalt på enheter och datorer.	Den mindre storleken på SLA:er kan ge fler alternativ för distribution, inklusive lokal distribution till enheter och lokala datorer. och gör dem snabbare och enklare att finjustera.
Att finjustera modellen med ytterligare data för att anpassa ämnesexpertisen kan vara tidskrävande och dyrt när det gäller den beräkningskraft som krävs för att utföra den ytterligare utbildningen.	Finjustering kan potentiellt vara mindre tidskrävande och dyrt.

Använda språkmodeller

Stora och små språkmodeller

Feedback