Självstudie: Skapa och distribuera en grundmodell Finjusteringskörning
Viktigt!
Den här funktionen finns i offentlig förhandsversion i följande regioner: centralus
, eastus
, eastus2
, och .northcentralus
westus
Den här artikeln beskriver hur du skapar och konfigurerar en körning med hjälp av API:et För grundläggande modell finjustering (nu en del av Mosaic AI Model Training) och granskar sedan resultaten och distribuerar modellen med hjälp av Databricks UI och Mosaic AI Model Serving.
Krav
- En arbetsyta i någon av följande Azure-regioner:
centralus
,eastus
,eastus2
,northcentralus
, ,westcentralus
,westus
,westus3
. - Databricks Runtime 12.2 LTS ML eller senare.
- Den här självstudien måste köras i en Databricks-notebook-fil.
- Träningsdata i godkänt format. Se Förbereda data för finjustering av foundation-modell.
Steg 1: Förbereda dina data för träning
Se Förbereda data för finjustering av foundation-modell.
Steg 2: Installera databricks_genai
SDK
Använd följande för att installera SDK: et databricks_genai
.
%pip install databricks_genai
Importera sedan foundation_model
biblioteket:
dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm
Steg 3: Skapa en träningskörning
Skapa en träningskörning med hjälp av funktionen Grundmodell Finjustering create()
. Följande parameters krävs:
-
model
: den modell som du vill träna. -
train_data_path
: platsen för träningsdatauppsättningen i. -
register_to
: Unity-Catalogcatalog och schemawhere du vill att kontrollpunkter ska sparas i.
Till exempel:
run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
register_to='main.my-directory',
training_duration='1ep')
run
Steg 4: Visa status för en körning
Hur mycket tid det tar att slutföra en träningskörning beror på antalet token, modellen och GPU-tillgängligheten. För snabbare träning rekommenderar Databricks att du använder reserverad beräkning. Kontakta ditt Databricks-kontoteam för mer information.
När du har startat körningen kan du övervaka statusen för den med hjälp av get_events()
.
run.get_events()
Steg 5: Visa mått och utdata
Följ de här stegen för att visa resultatet i Databricks-användargränssnittet:
- I Databricks-arbetsytan klickar du på Experiment i det vänstra navigeringsfältet.
- Select ditt experiment från list.
- Granska måttdiagrammen på fliken Diagram . Träningsmått genereras för varje träningskörning och utvärderingsmått genereras endast om en utvärderingsdatasökväg tillhandahålls.
- Det primära träningsmåttet som visar förloppet är förlust. Utvärderingsförlust kan användas för att se om din modell överanpassar dina träningsdata. Förlust bör dock inte förlita sig helt på eftersom utvärderingsförlusten i övervakade träningsuppgifter kan verka vara överanpassning medan modellen fortsätter att förbättras.
- Ju högre noggrannhet desto bättre är din modell, men tänk på att noggrannhet nära 100 % kan visa överanpassning.
- Följande mått visas i MLflow efter körningen:
-
LanguageCrossEntropy
beräknar korsentropi på utdata för språkmodellering. En lägre poäng är bättre. -
LanguagePerplexity
mäter hur väl en språkmodell förutsäger nästa ord eller tecken i ett textblock baserat på tidigare ord eller tecken. En lägre poäng är bättre. -
TokenAccuracy
beräknar precision på tokennivå för språkmodellering. En högre poäng är bättre.
-
- På den här fliken kan du också visa utdata från dina utvärderingsprompter om du har angett dem.
Steg 6: Utvärdera flera anpassade modeller med Mosaic AI Agent Evaluation innan du distribuerar
Se Vad är Mosaic AI Agent Evaluation?.
Steg 7: Distribuera din modell
Träningskörningen registrerar automatiskt din modell i Unity Catalog när den har slutförts. Modellen registreras baserat på vad du angav i register_to
fältet i körningsmetoden create()
.
Följ dessa steg för att distribuera modellen för servering:
- Navigera till modellen i Unity Catalog.
- Klicka på Hantera den här modellen.
- Klicka på Skapa serverdelsslutpunkt.
- Ange ett namn för slutpunkten i fältet Namn .
- Klicka på Skapa.
Ytterligare resurser
- Skapa en träningskörning med hjälp av API:et för finjustering av foundation-modellen
- Finjustering av grundmodell
- Modellbetjäning med Azure Databricks
- Se instruktionens finjustering: Den namngivna demoanteckningsboken För entitetsigenkänning finns ett exempel på finjustering av instruktioner som går igenom dataförberedelser, finjustering av träningskörningskonfiguration och distribution.