Förstå LLM:er

5 minuter

En stor språkmodell (LLM) är en typ av AI som kan bearbeta och producera text på naturligt språk. Den lär sig av en enorm mängd data som samlas in från källor som böcker, artiklar, webbsidor och bilder för att upptäcka mönster och regler för språk.

Hur stora är de?

En LLM skapas med hjälp av en arkitektur för neurala nätverk. Det tar en indata, har flera dolda lager som delar upp olika aspekter av språket och producerar på utdatalagret.

Människor rapporterar ofta hur den senaste grundläggande modellen är större än den förra, men vad betyder det? Ju fler parametrar en modell har, desto mer data kan den bearbeta, lära sig av och generera.

För varje anslutning mellan två neuron i arkitekturen för neurala nätverk finns det en funktion: vikt * indata + bias. Det här nätverket genererar numeriska värden som avgör hur modellen bearbetar språk.

LLM:er är verkligen stora och växer snabbt. Vissa modeller kan beräkna miljontals parametrar under 2018. Men idag kan GPT-4 beräkna biljoner parametrar.

Diagram som visar de olika generationerna av LLM:er som är associerade med antalet parametrar som varje modell har.

Var passar grundläggande modeller in i LLM:er?

En grundmodell refererar till en specifik instans eller version av en LLM. Till exempel GPT-3, GPT-4 eller Codex.

Grundläggande modeller tränas och finjusteras på en stor textkorus eller kod om det är en Codex-modellinstans.

En grundläggande modell tar in träningsdata i alla olika format och använder en transformeringsarkitektur för att skapa en allmän modell. Anpassningar och specialiseringar kan skapas för att uppnå vissa uppgifter via uppmaningar eller finjustering.

Hur skiljer sig en LLM från mer traditionell bearbetning av naturligt språk (NLP)?

Det finns några saker som skiljer traditionella NLP:er från LLM:er.

Traditionell NLP	Stora språkmodeller
En modell per kapacitet krävs.	En enda modell används för många användningsfall med naturligt språk.
Tillhandahåller en uppsättning etiketterade data för att träna ML-modellen.	Använder många terabyte med omärkta data i grundmodellen.
Beskriver på naturligt språk vad du vill att modellen ska göra.	Mycket optimerad för specifika användningsfall.

Vad gör inte en LLM?

Hur viktigt det än är att förstå vad en LLM kan göra är det lika viktigt att förstå vad den inte kan göra så att du väljer rätt verktyg för jobbet.

Förstå språk: En LLM är en förutsägande motor som hämtar mönster tillsammans baserat på befintlig text för att producera mer text. Det förstår inte språk eller matematik.
Förstå fakta: En LLM har inte separata lägen för informationshämtning och kreativt skrivande. Den förutsäger helt enkelt nästa mest sannolika token.
Förstå sätt, känslor eller etik: En LLM kan inte uppvisa antropomorfism eller förstå etik. Utdata från en grundläggande modell är en kombination av träningsdata och uppmaningar.

Förstå LLM:er

Hur stora är de?

Var passar grundläggande modeller in i LLM:er?

Hur skiljer sig en LLM från mer traditionell bearbetning av naturligt språk (NLP)?

Vad gör inte en LLM?

Feedback