Visa, hantera och analysera finjusteringskörningar av grundmodeller

Artikel
04/03/2025

Viktigt!

Den här funktionen finns i offentlig förhandsversion i följande regioner: centralus, eastus, eastus2, och .northcentraluswestus

Den här artikeln beskriver hur du visar, hanterar och analyserar finjustering av Foundation-modeller (nu en del av Mosaic AI Model Training) som körs antingen med API:er eller via användargränssnittet.

Information om hur du skapar körningar finns i Skapa en träningskörning med hjälp av Grundmodellens finjusterings-API och Skapa en träningskörning med hjälp av Grundmodellens finjusteringsgränssnitt.

Använd Foundation-modellens finjusterings-API:er för att visa och hantera träningskörningar

API:er för finjustering av grundmodeller tillhandahåller följande funktioner för att hantera dina träningssessioner.

Ta en löprunda

Använd get()-funktionen för att returnera en körning enligt namn eller ett körningsobjekt som du har startat.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Lista körningar

Använd list()-funktionen för att se de körningar som du har startat. I följande tabell visas de valfria filter som du kan ange.

Valfritt filter	Definition
`finetuning_runs`	En lista över körningar att hämta. Förvalt inställning är att välja alla körningar.
`user_emails`	Om delade körningar är aktiverade för din arbetsyta kan du filtrera resultatet efter den användare som skickade träningskörningen. Som standard används inget användarfilter.
`before`	En datetime- eller datetime-sträng som ska filtreras körs tidigare. Standardvärdet är alla körningar.
`after`	En datetime eller datetime-sträng för att filtrera körningar efter. Standardinställningen gäller för alla körningar.

from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

Avbryta träningskörningar

Om du vill avbryta en enskild träningskörning använder du cancel() funktionen och skickar in körningsnamnet.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Om du vill avbryta flera träningskörningar skickar du in de specifika körningsnamnen som en lista.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

För att avbryta alla träningskörningar i ett experiment, ange experimentets ID.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

Granska status för träningskörningar

I följande tabell visas de händelser som skapats av en träningskörning. get_events() Använd funktionen när som helst under körningen för att se körningens förlopp.

Kommentar

Grundmodellens finjustering framtvingar en gräns på 10 aktiva körningar. Dessa körningar som antingen är i kö, körs eller avslutas. Körningar anses inte längre vara aktiva när de har slutförts, misslyckats eller stoppats.

Händelsetyp	Exempel på händelsemeddelande	Definition
`CREATED`	Kör skapad.	Träningspass skapades. Om resurserna är tillgängliga startar körningen. Annars går den in i `Pending`-tillståndet.
`STARTED`	Körningen har startat.	Resurser har fördelats, och körningen har påbörjats.
`DATA_VALIDATED`	Träningsdata verifierade.	Verifierade att träningsdata är korrekt formaterade.
`MODEL_INITIALIZED`	Modelldata som laddats ned och initierats för basmodellen `meta-llama/Llama-2-7b-chat-hf`.	Vikter för basmodellen har laddats ned och träningen är redo att börja.
`TRAIN_UPDATED`	[epoch=1/1][batch=50/56][ETA=5min] Tågförlust: 1,71	Rapporterar aktuell träningsbatch, epok eller token, uppskattad tid för att träningen ska slutföras (exklusive tid för uppladdning av kontrollpunkter) samt träningsförlust. Den här händelsen uppdateras när varje batch slutar. Om körningskonfigurationen anger `max_duration` i `tok`-enheter, rapporteras förloppet i tokens.
`TRAIN_FINISHED`	Utbildningen har slutförts.	Träningen är klar. Uppladdningen av kontrollpunkter börjar.
`COMPLETED`	Körningen har slutförts. De sista vikterna har laddats upp.	Kontrollpunkten har laddats upp och körningen har slutförts.
`CANCELED`	Körningen avbröts.	Körningen avbryts om `fm.cancel()` anropas på den.
`FAILED`	Ett eller flera exempel på träningsdatauppsättningar har okända nycklar. Kontrollera dokumentationen för dataformat som stöds.	Körningen misslyckades. Kontrollera `event_message` för konkreta detaljer eller kontakta support.

from databricks.model_training import foundation_model as fm

fm.get_events()

Använd användargränssnittet för att visa och hantera körningar

Så här visar du körningar i användargränssnittet:

Klicka på Experiment i det vänstra navigeringsfältet för att visa sidan Experiment.
I tabellen klickar du på namnet på experimentet för att visa experimentsidan. På experimentsidan visas alla genomföranden som är associerade med experimentet.
Om du vill visa ytterligare information eller mått i tabellen klickar du på och väljer de objekt som ska visas på menyn:
Ytterligare körningsinformation finns på fliken Diagram :
Du kan också klicka på namnet på körningen för att visa körningsskärmen. Den här skärmen ger dig åtkomst till ytterligare information om processen.

Kontrollpunkter

Om du vill komma åt kontrollpunktsmappen klickar du på fliken Artefakter på körningsskärmen. Öppna namnet på experimentet och sedan öppna mappen checkpoints. Dessa artefaktkontrollpunkter är inte samma som den registrerade modellen i slutet av en träningskörning.

kontrollpunktsmapp på fliken artefakter

Det finns några kataloger i den här mappen:

Epokmapparna (med namnet ep<n>-xxx) innehåller vikter och modelltillstånd vid varje kontrollpunkt. Kontrollpunkter sparas regelbundet under träningen och används för att återuppta en finjusteringskörning och fortsatt finjustering. Den här kontrollpunkten är den som du skickar in som custom_weights_path för att starta en annan träningssession från dessa vikter, se Bygg vidare på anpassade modellvikter.
checkpoints/latest-sharded-rank0.symlink Är en fil som innehåller sökvägen till den senaste kontrollpunkten, som du kan använda för att återuppta träningen.

Du kan också hämta kontrollpunkterna för en körning när de har sparats med .get_checkpoints(run) Den här funktionen tar körningsobjektet som inmatning. Om kontrollpunkter inte finns ännu uppmanas du att försöka igen när kontrollpunkterna har sparats.

Dela via