Dela via


Begrepp – små och stora språkmodeller

I den här artikeln får du lära dig mer om små och stora språkmodeller, inklusive när du ska använda dem och hur du kan använda dem med dina AI- och maskininlärningsarbetsflöden i Azure Kubernetes Service (AKS).

Vad är språkmodeller?

Språkmodeller är kraftfulla maskininlärningsmodeller som används för nlp-uppgifter (natural language processing), till exempel textgenerering och attitydanalys. Dessa modeller representerar naturligt språk baserat på sannolikheten för ord eller sekvenser av ord som förekommer i en viss kontext.

Konventionella språkmodeller har använts i övervakade inställningar för forskningsändamål där modellerna tränas på välmärkta textdatauppsättningar för specifika uppgifter. Förtränade språkmodeller erbjuder ett tillgängligt sätt att komma igång med AI och har blivit mer allmänt använda under de senaste åren. Dessa modeller tränas på storskalig text corpora från Internet med hjälp av djupa neurala nätverk och kan finjusteras på mindre datauppsättningar för specifika uppgifter.

Storleken på en språkmodell bestäms av dess antal parametrar, eller vikter, som avgör hur modellen bearbetar indata och genererar utdata. Parametrar lärs under träningsprocessen genom att justera vikterna i modellens lager för att minimera skillnaden mellan modellens förutsägelser och faktiska data. Ju fler parametrar en modell har, desto mer komplex och uttrycksfull är den, men också ju mer beräkningsmässigt dyr den är att träna och använda.

I allmänhet har små språkmodeller färre än 10 miljarder parametrar och stora språkmodeller har mer än 10 miljarder parametrar. Den nya Microsoft Phi-3-modellfamiljen har till exempel tre versioner med olika storlekar: mini (3,8 miljarder parametrar), små (7 miljarder parametrar) och medel (14 miljarder parametrar).

När du ska använda små språkmodeller

Fördelar

Små språkmodeller är ett bra val om du vill ha modeller som är:

  • Snabbare och mer kostnadseffektivt att träna och köra: De kräver mindre data- och beräkningskraft.
  • Lätt att distribuera och underhålla: De har mindre lagrings- och minnesavtryck.
  • Mindre benägna att överanpassa, vilket är när en modell lär sig bruset eller specifika mönster för träningsdata och misslyckas med att generalisera nya data.
  • Tolkningsbar och förklarande: De har färre parametrar och komponenter att förstå och analysera.

Användningsfall

Små språkmodeller är lämpliga för användningsfall som kräver:

  • Begränsade data eller resurser och du behöver en snabb och enkel lösning.
  • Väldefinierade eller smala uppgifter och du behöver inte mycket kreativitet i utdata.
  • Uppgifter med hög precision och låg träffsäkerhet, och du värdesätter noggrannhet och kvalitet jämfört med täckning och kvantitet.
  • Känsliga eller reglerade uppgifter och du måste säkerställa modellens transparens och ansvarsskyldighet.

I följande tabell visas några populära, högpresterande små språkmodeller:

Modellfamilj Modellstorlekar (antal parametrar) Programvarulicens
Microsoft Phi-3 Phi-3-mini (3,8 miljarder), Phi-3-small (7 miljarder) MIT-licens
Microsoft Phi-2 Phi-2 (2,7 miljarder) MIT-licens
Falcon Falcon-7B (7 miljarder) Apache 2.0-licens

När du ska använda stora språkmodeller

Fördelar

Stora språkmodeller är ett bra val om du vill ha modeller som är:

  • Kraftfull och uttrycksfull: De kan fånga in mer komplexa mönster och relationer i data.
  • Allmänt och anpassningsbart: De kan hantera ett bredare utbud av uppgifter och överföra kunskap mellan domäner.
  • Robust och konsekvent: De kan hantera bullriga eller ofullständiga indata och undvika vanliga fel och fördomar.

Användningsfall

Stora språkmodeller är lämpliga för användningsfall som kräver:

  • Rikliga data och resurser, och du har budget för att skapa och underhålla en komplex lösning.
  • Uppgifter med låg precision och hög träffsäkerhet, och du värdesätter täckning och kvantitet över noggrannhet och kvalitet.
  • Utmanande eller undersökande uppgifter och du vill utnyttja modellens kapacitet att lära sig och anpassa sig.

I följande tabell visas några populära, högpresterande stora språkmodeller:

Modellfamilj Modellstorlekar (antal parametrar) Programvarulicens
Microsoft Phi-3 Phi-3-medium (14 miljarder) MIT-licens
Falcon Falcon-40B (40 miljarder) Apache 2.0-licens

Experimentera med små och stora språkmodeller på AKS

Kubernetes AI Toolchain Operator (KAITO) är en operator med öppen källkod som automatiserar distributioner av små och stora språkmodeller i Kubernetes-kluster. KAITO-tillägget för AKS förenklar registrering och minskar tiden till slutsatsdragning för modeller med öppen källkod i dina AKS-kluster. Tillägget etablerar automatiskt GPU-noder i rätt storlek och konfigurerar den associerade interferensservern som en slutpunktsserver till den valda modellen.

Mer information finns i Distribuera en AI-modell på AKS med AI-verktygskedjans operator. Information om hur du kommer igång med en rad små och stora språkmodeller som stöds för dina slutsatsdragningsarbetsflöden finns i GITHub-lagringsplatsen för KAITO-modellen.

Viktigt!

Programvara med öppen källkod nämns i AKS-dokumentationen och exempel. Programvara som du distribuerar undantas från AKS-serviceavtal, begränsad garanti och Azure Support. När du använder teknik med öppen källkod tillsammans med AKS kan du läsa supportalternativen som är tillgängliga från respektive community och projektunderhållare för att utveckla en plan.

Till exempel beskriver Ray GitHub-lagringsplatsen flera plattformar som varierar i svarstid, syfte och supportnivå.

Microsoft tar ansvar för att skapa de paket med öppen källkod som vi distribuerar på AKS. Det ansvaret omfattar att ha fullständigt ägarskap för bygg-, genomsöknings-, signerings-, validerings- och snabbkorrigeringsprocessen, tillsammans med kontroll över binärfilerna i containeravbildningar. Mer information finns i Sårbarhetshantering för AKS - och AKS-stödtäckning.

Nästa steg

Mer information om containerbaserade AI- och maskininlärningsarbetsbelastningar i AKS finns i följande artiklar: