Visa, hantera och analysera grundmodell finjusteringskörningar
Viktigt!
Den här funktionen finns i offentlig förhandsversion i följande regioner: centralus
, eastus
, eastus2
, och .northcentralus
westus
Den här artikeln beskriver hur du visar, hanterar och analyserar finjustering av foundation-modell (nu en del av Mosaic AI Model Training) körs med API:er eller med hjälp av användargränssnittet.
Information om hur du skapar körningar finns i Skapa en träningskörning med hjälp av API :et för finjustering av grundmodell och Skapa en träningskörning med hjälp av basmodellens finjusteringsgränssnitt.
Använda FOUNDATION Model Finjusterings-API:er för att visa och hantera träningskörningar
Foundation Model Finjusterings-API:er tillhandahåller följande funktioner för att hantera dina träningskörningar.
Ta en löprunda
get()
Använd funktionen för att returnera en körning efter namn eller ett körningsobjekt som du har startat.
from databricks.model_training import foundation_model as fm
fm.get('<your-run-name>')
Listkörningar
list()
Använd funktionen för att se de körningar som du har startat. I följande tabell visas de valfria filter som du kan ange.
Valfritt filter | Definition |
---|---|
finetuning_runs |
En lista över körningar att hämta. Standardvärdet är att välja alla körningar. |
user_emails |
Om delade körningar är aktiverade för din arbetsyta kan du filtrera resultatet efter den användare som skickade träningskörningen. Standardvärdet är inget användarfilter. |
before |
En datetime- eller datetime-sträng som ska filtreras körs tidigare. Standardvärdet är alla körningar. |
after |
En datetime- eller datetime-sträng som ska filtreras körs efter. Standardvärdet är alla körningar. |
from databricks.model_training import foundation_model as fm
fm.list()
# filtering example
fm.list(before='2023-01-01', limit=50)
Avbryta träningskörningar
Om du vill avbryta en enskild träningskörning använder du cancel()
funktionen och skickar in körningsnamnet.
from databricks.model_training import foundation_model as fm
run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)
Om du vill avbryta flera träningskörningar skickar du in de specifika körningsnamnen som en lista.
from databricks.model_training import foundation_model as fm
runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)
Om du vill avbryta alla träningskörningar i ett experiment skickar du experiment-ID:t.
from databricks.model_training import foundation_model as fm
experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)
Granska status för träningskörningar
I följande tabell visas de händelser som skapats av en träningskörning.
get_events()
Använd funktionen när som helst under körningen för att se körningens förlopp.
Kommentar
Grundmodellens finjustering framtvingar en gräns på 10 aktiva körningar. Dessa körningar som antingen är i kö, körs eller slutförs. Körningar anses inte längre vara aktiva när de har slutförts, misslyckats eller stoppats.
Händelsetyp | Exempel på händelsemeddelande | Definition |
---|---|---|
CREATED |
Kör skapad. | Träningskörning skapades. Om resurserna är tillgängliga startar körningen. Annars anger den Pending tillståndet. |
STARTED |
Körningen har startats. | Resurser har allokerats och körningen har startats. |
DATA_VALIDATED |
Träningsdata verifierade. | Verifierade att träningsdata är korrekt formaterade. |
MODEL_INITIALIZED |
Modelldata som laddats ned och initierats för basmodellen meta-llama/Llama-2-7b-chat-hf . |
Vikter för basmodellen har laddats ned och träningen är redo att börja. |
TRAIN_UPDATED |
[epoch=1/1][batch=50/56][ETA=5min] Tågförlust: 1,71 | Rapporterar den aktuella träningsbatchen, epoken eller token, uppskattad tid för träningen att slutföras (exklusive uppladdningstid för kontrollpunkter) och träningsförlust. Den här händelsen uppdateras när varje batch slutar. Om körningskonfigurationen anger i max_duration enheter rapporteras tok förloppet i token. |
TRAIN_FINISHED |
Utbildningen har slutförts. | Träningen är klar. Uppladdningen av kontrollpunkter börjar. |
COMPLETED |
Körningen har slutförts. De sista vikterna har laddats upp. | Kontrollpunkten har laddats upp och körningen har slutförts. |
CANCELED |
Körningen avbröts. | Körningen avbryts om fm.cancel() den anropas. |
FAILED |
Ett eller flera exempel på träningsdatauppsättningar har okända nycklar. Kontrollera dokumentationen för dataformat som stöds. | Körningen misslyckades. Sök efter event_message användbar information eller kontakta supporten. |
from databricks.model_training import foundation_model as fm
fm.get_events()
Använda användargränssnittet för att visa och hantera körningar
Så här visar du körningar i användargränssnittet:
Klicka på Experiment i det vänstra navigeringsfältet för att visa sidan Experiment.
I tabellen klickar du på namnet på experimentet för att visa experimentsidan. På experimentsidan visas alla körningar som är associerade med experimentet.
Om du vill visa ytterligare information eller mått i tabellen klickar du på och väljer de objekt som ska visas på menyn:
Ytterligare körningsinformation finns på fliken Diagram :
Du kan också klicka på namnet på körningen för att visa körningsskärmen. Den här skärmen ger dig åtkomst till ytterligare information om körningen.
Kontrollpunkter
Om du vill komma åt kontrollpunktsmappen klickar du på fliken Artefakter på körningsskärmen. Öppna experimentnamnet och öppna sedan mappen checkpoints . Dessa artefaktkontrollpunkter är inte samma som den registrerade modellen i slutet av en träningskörning.
Det finns några kataloger i den här mappen:
- Epokmapparna (med namnet
ep<n>-xxx
) innehåller vikter och modelltillstånd vid varje kontrollpunkt för Composer. Kontrollpunkter för kompositör sparas regelbundet genom träning, dessa används för att återuppta en finjusteringsträningskörning och fortsatt finjustering. Den här kontrollpunkten är den som du skickar in somcustom_weights_path
för att starta en annan träningskörning från dessa vikter, se Skapa på anpassade modellvikter. -
huggingface
I mappen sparas även huggande ansiktskontroller regelbundet genom träning. När du har laddat ned innehållet i den här mappen kan du läsa in dessa kontrollpunkter på samma sätt som med andra huggande ansiktskontrollpunkter med hjälp avAutoModelForCausalLM.from_pretrained(<downloaded folder>)
. -
checkpoints/latest-sharded-rank0.symlink
Är en fil som innehåller sökvägen till den senaste kontrollpunkten, som du kan använda för att återuppta träningen.
Du kan också hämta Composer-kontrollpunkterna för en process när de har sparats med hjälp av get_checkpoints(run)
. Den här funktionen tar körningsobjektet som indata. Om kontrollpunkter inte finns ännu uppmanas du att försöka igen när kontrollpunkterna har sparats.