Dela via


Visa, hantera och analysera grundmodell finjusteringskörningar

Viktigt!

Den här funktionen finns i offentlig förhandsversion i följande regioner: centralus, eastus, eastus2, och .northcentraluswestus

Den här artikeln beskriver hur du visar, hanterar och analyserar finjustering av foundation-modell (nu en del av Mosaic AI Model Training) körs med API:er eller med hjälp av användargränssnittet.

Information om hur du skapar körningar finns i Skapa en träningskörning med hjälp av API :et för finjustering av grundmodell och Skapa en träningskörning med hjälp av basmodellens finjusteringsgränssnitt.

Använda FOUNDATION Model Finjusterings-API:er för att visa och hantera träningskörningar

Foundation Model Finjusterings-API:er tillhandahåller följande funktioner för att hantera dina träningskörningar.

Ta en löprunda

get() Använd funktionen för att returnera en körning efter namn eller ett körningsobjekt som du har startat.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Listkörningar

list() Använd funktionen för att se de körningar som du har startat. I följande tabell visas de valfria filter som du kan ange.

Valfritt filter Definition
finetuning_runs En lista över körningar att hämta. Standardvärdet är att välja alla körningar.
user_emails Om delade körningar är aktiverade för din arbetsyta kan du filtrera resultatet efter den användare som skickade träningskörningen. Standardvärdet är inget användarfilter.
before En datetime- eller datetime-sträng som ska filtreras körs tidigare. Standardvärdet är alla körningar.
after En datetime- eller datetime-sträng som ska filtreras körs efter. Standardvärdet är alla körningar.
from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

Avbryta träningskörningar

Om du vill avbryta en enskild träningskörning använder du cancel() funktionen och skickar in körningsnamnet.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Om du vill avbryta flera träningskörningar skickar du in de specifika körningsnamnen som en lista.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

Om du vill avbryta alla träningskörningar i ett experiment skickar du experiment-ID:t.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

Granska status för träningskörningar

I följande tabell visas de händelser som skapats av en träningskörning. get_events() Använd funktionen när som helst under körningen för att se körningens förlopp.

Kommentar

Grundmodellens finjustering framtvingar en gräns på 10 aktiva körningar. Dessa körningar som antingen är i kö, körs eller slutförs. Körningar anses inte längre vara aktiva när de har slutförts, misslyckats eller stoppats.

Händelsetyp Exempel på händelsemeddelande Definition
CREATED Kör skapad. Träningskörning skapades. Om resurserna är tillgängliga startar körningen. Annars anger den Pending tillståndet.
STARTED Körningen har startats. Resurser har allokerats och körningen har startats.
DATA_VALIDATED Träningsdata verifierade. Verifierade att träningsdata är korrekt formaterade.
MODEL_INITIALIZED Modelldata som laddats ned och initierats för basmodellen meta-llama/Llama-2-7b-chat-hf. Vikter för basmodellen har laddats ned och träningen är redo att börja.
TRAIN_UPDATED [epoch=1/1][batch=50/56][ETA=5min] Tågförlust: 1,71 Rapporterar den aktuella träningsbatchen, epoken eller token, uppskattad tid för träningen att slutföras (exklusive uppladdningstid för kontrollpunkter) och träningsförlust. Den här händelsen uppdateras när varje batch slutar. Om körningskonfigurationen anger i max_duration enheter rapporteras tok förloppet i token.
TRAIN_FINISHED Utbildningen har slutförts. Träningen är klar. Uppladdningen av kontrollpunkter börjar.
COMPLETED Körningen har slutförts. De sista vikterna har laddats upp. Kontrollpunkten har laddats upp och körningen har slutförts.
CANCELED Körningen avbröts. Körningen avbryts om fm.cancel() den anropas.
FAILED Ett eller flera exempel på träningsdatauppsättningar har okända nycklar. Kontrollera dokumentationen för dataformat som stöds. Körningen misslyckades. Sök efter event_message användbar information eller kontakta supporten.
from databricks.model_training import foundation_model as fm

fm.get_events()

Använda användargränssnittet för att visa och hantera körningar

Så här visar du körningar i användargränssnittet:

  1. Klicka på Experiment i det vänstra navigeringsfältet för att visa sidan Experiment.

  2. I tabellen klickar du på namnet på experimentet för att visa experimentsidan. På experimentsidan visas alla körningar som är associerade med experimentet.

    experimentsida

  3. Om du vill visa ytterligare information eller mått i tabellen klickar du på plustecken och väljer de objekt som ska visas på menyn:

    lägga till mått i diagrammet

  4. Ytterligare körningsinformation finns på fliken Diagram :

    diagramflik

  5. Du kan också klicka på namnet på körningen för att visa körningsskärmen. Den här skärmen ger dig åtkomst till ytterligare information om körningen.

    kör sida

Kontrollpunkter

Om du vill komma åt kontrollpunktsmappen klickar du på fliken Artefakter på körningsskärmen. Öppna experimentnamnet och öppna sedan mappen checkpoints . Dessa artefaktkontrollpunkter är inte samma som den registrerade modellen i slutet av en träningskörning.

kontrollpunktsmapp på fliken artefakter

Det finns några kataloger i den här mappen:

  • Epokmapparna (med namnet ep<n>-xxx) innehåller vikter och modelltillstånd vid varje kontrollpunkt för Composer. Kontrollpunkter för kompositör sparas regelbundet genom träning, dessa används för att återuppta en finjusteringsträningskörning och fortsatt finjustering. Den här kontrollpunkten är den som du skickar in som custom_weights_path för att starta en annan träningskörning från dessa vikter, se Skapa på anpassade modellvikter.
  • huggingface I mappen sparas även huggande ansiktskontroller regelbundet genom träning. När du har laddat ned innehållet i den här mappen kan du läsa in dessa kontrollpunkter på samma sätt som med andra huggande ansiktskontrollpunkter med hjälp av AutoModelForCausalLM.from_pretrained(<downloaded folder>).
  • checkpoints/latest-sharded-rank0.symlink Är en fil som innehåller sökvägen till den senaste kontrollpunkten, som du kan använda för att återuppta träningen.

Du kan också hämta Composer-kontrollpunkterna för en process när de har sparats med hjälp av get_checkpoints(run). Den här funktionen tar körningsobjektet som indata. Om kontrollpunkter inte finns ännu uppmanas du att försöka igen när kontrollpunkterna har sparats.