Visa, hantera och analysera finjusteringskörningar av grundmodeller
Viktigt!
Den här funktionen finns i offentlig förhandsversion i följande regioner: centralus
, eastus
, eastus2
, och .northcentralus
westus
Den här artikeln beskriver hur du visar, hanterar och analyserar finjustering av Foundation-modeller (nu en del av Mosaic AI Model Training) som körs antingen med API:er eller via användargränssnittet.
Information om hur du skapar körningar finns i Skapa en träningskörning med hjälp av Grundmodellens finjusterings-API och Skapa en träningskörning med hjälp av Grundmodellens finjusteringsgränssnitt.
Använd Foundation-modellens finjusterings-API:er för att visa och hantera träningskörningar
API:er för finjustering av grundmodeller tillhandahåller följande funktioner för att hantera dina träningssessioner.
Ta en löprunda
Använd get()
-funktionen för att returnera en körning enligt namn eller ett körningsobjekt som du har startat.
from databricks.model_training import foundation_model as fm
fm.get('<your-run-name>')
Lista körningar
Använd list()
-funktionen för att se de körningar som du har startat. I följande tabell visas de valfria filter som du kan ange.
Valfritt filter | Definition |
---|---|
finetuning_runs |
En lista över körningar att hämta. Förvalt inställning är att välja alla körningar. |
user_emails |
Om delade körningar är aktiverade för din arbetsyta kan du filtrera resultatet efter den användare som skickade träningskörningen. Som standard används inget användarfilter. |
before |
En datetime- eller datetime-sträng som ska filtreras körs tidigare. Standardvärdet är alla körningar. |
after |
En datetime eller datetime-sträng för att filtrera körningar efter. Standardinställningen gäller för alla körningar. |
from databricks.model_training import foundation_model as fm
fm.list()
# filtering example
fm.list(before='2023-01-01', limit=50)
Avbryta träningskörningar
Om du vill avbryta en enskild träningskörning använder du cancel()
funktionen och skickar in körningsnamnet.
from databricks.model_training import foundation_model as fm
run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)
Om du vill avbryta flera träningskörningar skickar du in de specifika körningsnamnen som en lista.
from databricks.model_training import foundation_model as fm
runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)
För att avbryta alla träningskörningar i ett experiment, ange experimentets ID.
from databricks.model_training import foundation_model as fm
experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)
Granska status för träningskörningar
I följande tabell visas de händelser som skapats av en träningskörning.
get_events()
Använd funktionen när som helst under körningen för att se körningens förlopp.
Kommentar
Grundmodellens finjustering framtvingar en gräns på 10 aktiva körningar. Dessa körningar som antingen är i kö, körs eller avslutas. Körningar anses inte längre vara aktiva när de har slutförts, misslyckats eller stoppats.
Händelsetyp | Exempel på händelsemeddelande | Definition |
---|---|---|
CREATED |
Kör skapad. | Träningspass skapades. Om resurserna är tillgängliga startar körningen. Annars går den in i Pending -tillståndet. |
STARTED |
Körningen har startat. | Resurser har fördelats, och körningen har påbörjats. |
DATA_VALIDATED |
Träningsdata verifierade. | Verifierade att träningsdata är korrekt formaterade. |
MODEL_INITIALIZED |
Modelldata som laddats ned och initierats för basmodellen meta-llama/Llama-2-7b-chat-hf . |
Vikter för basmodellen har laddats ned och träningen är redo att börja. |
TRAIN_UPDATED |
[epoch=1/1][batch=50/56][ETA=5min] Tågförlust: 1,71 | Rapporterar aktuell träningsbatch, epok eller token, uppskattad tid för att träningen ska slutföras (exklusive tid för uppladdning av kontrollpunkter) samt träningsförlust. Den här händelsen uppdateras när varje batch slutar. Om körningskonfigurationen anger max_duration i tok -enheter, rapporteras förloppet i tokens. |
TRAIN_FINISHED |
Utbildningen har slutförts. | Träningen är klar. Uppladdningen av kontrollpunkter börjar. |
COMPLETED |
Körningen har slutförts. De sista vikterna har laddats upp. | Kontrollpunkten har laddats upp och körningen har slutförts. |
CANCELED |
Körningen avbröts. | Körningen avbryts om fm.cancel() anropas på den. |
FAILED |
Ett eller flera exempel på träningsdatauppsättningar har okända nycklar. Kontrollera dokumentationen för dataformat som stöds. | Körningen misslyckades. Kontrollera event_message för konkreta detaljer eller kontakta support. |
from databricks.model_training import foundation_model as fm
fm.get_events()
Använd användargränssnittet för att visa och hantera körningar
Så här visar du körningar i användargränssnittet:
Klicka på Experiment i det vänstra navigeringsfältet för att visa sidan Experiment.
I tabellen klickar du på namnet på experimentet för att visa experimentsidan. På experimentsidan visas alla genomföranden som är associerade med experimentet.
Om du vill visa ytterligare information eller mått i tabellen klickar du på
och väljer de objekt som ska visas på menyn:
Ytterligare körningsinformation finns på fliken Diagram :
Du kan också klicka på namnet på körningen för att visa körningsskärmen. Den här skärmen ger dig åtkomst till ytterligare information om processen.
Kontrollpunkter
Om du vill komma åt kontrollpunktsmappen klickar du på fliken Artefakter på körningsskärmen. Öppna namnet på experimentet och sedan öppna mappen checkpoints. Dessa artefaktkontrollpunkter är inte samma som den registrerade modellen i slutet av en träningskörning.
Det finns några kataloger i den här mappen:
- Epokmapparna (med namnet
ep<n>-xxx
) innehåller vikter och modelltillstånd vid varje kontrollpunkt. Kontrollpunkter sparas regelbundet under träningen och används för att återuppta en finjusteringskörning och fortsatt finjustering. Den här kontrollpunkten är den som du skickar in somcustom_weights_path
för att starta en annan träningssession från dessa vikter, se Bygg vidare på anpassade modellvikter. -
checkpoints/latest-sharded-rank0.symlink
Är en fil som innehåller sökvägen till den senaste kontrollpunkten, som du kan använda för att återuppta träningen.
Du kan också hämta kontrollpunkterna för en körning när de har sparats med .get_checkpoints(run)
Den här funktionen tar körningsobjektet som inmatning. Om kontrollpunkter inte finns ännu uppmanas du att försöka igen när kontrollpunkterna har sparats.