Zobrazení, správa a analýza spuštění ladění základního modelu

Článek
01/22/2025

Důležité

Tato funkce je ve verzi Public Preview v následujících oblastech: centralus, eastus, eastus2, northcentralusa westus.

Tento článek popisuje, jak zobrazit, spravovat a analyzovat jemné ladění základního modelu (nyní součástí trénování modelu Puzzle AI) pomocí rozhraní API nebo pomocí uživatelského rozhraní.

Informace o vytváření spuštění najdete v tématu Vytvoření trénovacího spuštění pomocí rozhraní API pro vyladění základního modelu a vytvoření trénovacího spuštění pomocí uživatelského rozhraní pro vyladění modelu foundation.

Použití rozhraní API pro jemné ladění modelu Foundation k zobrazení a správě trénovacích běhů

Rozhraní API pro vyladění základního modelu poskytují následující funkce pro správu trénovacích běhů.

Vyrazit si zaběhat

get() Funkce slouží k vrácení spuštění podle názvu nebo spuštění objektu, který jste spustili.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Seznam běhů

list() Pomocí funkce zobrazíte spuštění, která jste spustili. Následující tabulka uvádí volitelné filtry, které můžete zadat.

Volitelný filtr	Definice
`finetuning_runs`	Seznam běhů, které je třeba získat. Ve výchozím nastavení vyberete všechna spuštění.
`user_emails`	Pokud jsou pro váš pracovní prostor povolená sdílená spuštění, můžete výsledky filtrovat podle uživatele, který spuštění trénování odeslal. Výchozí hodnota není filtr uživatele.
`before`	Řetězec datetime nebo datetime, který se má filtrovat dříve. Výchozí hodnota je pro všechna spuštění.
`after`	Řetězec datetime nebo datetime, který se má filtrovat po spuštění. Výchozí hodnota je pro všechna spuštění.

from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

Zrušení trénovacích běhů

Pokud chcete zrušit jedno trénovací spuštění, použijte cancel() funkci a předejte název spuštění.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Pokud chcete zrušit více trénovacích běhů, předejte konkrétní názvy běhů ve formě seznamu.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

Pokud chcete zrušit všechna trénovací spuštění v experimentu, předejte ID experimentu.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

Kontrola stavu trénovacích spuštění

Následující tabulka uvádí události vytvořené během výcvikového běhu. get_events() Funkci můžete použít kdykoli během spuštění, abyste viděli průběh spuštění.

Poznámka:

Vyladění základního modelu vynucuje limit 10 aktivních spuštění. Tato spuštění jsou buď ve frontě, spuštěné, nebo dokončují. Spuštění se už nepovažují za aktivní, jakmile jsou ve stavu DOKONČENO, SELHALO nebo ZASTAVENO.

Typ události	Příklad zprávy události	Definice
`CREATED`	Spusťte vytvořenou.	Spuštění trénování bylo vytvořeno. Pokud jsou prostředky dostupné, spustí se spuštění. V opačném případě přejde do `Pending` stavu.
`STARTED`	Spuštění bylo spuštěno.	Prostředky byly přiděleny a spuštění se spustilo.
`DATA_VALIDATED`	Ověřená trénovací data	Ověřilo se, že jsou trénovací data správně naformátovaná.
`MODEL_INITIALIZED`	Data modelu stažena a inicializována pro základní model `meta-llama/Llama-2-7b-chat-hf`.	Váhy základního modelu byly staženy a trénování je připravené začít.
`TRAIN_UPDATED`	[epoch=1/1][dávka=50/56][ETA=5min] Ztráta vlaku: 1.71	Zaznamenává aktuální trénovací dávku, epochu nebo token, odhadovaný čas dokončení trénování (včetně času nahrávání kontrolního bodu) a ztrátu trénování. Tato událost se aktualizuje, když každá dávka skončí. Pokud konfigurace spuštění určuje `max_duration` v `tok` jednotkách, průběh se v tokenech hlásí.
`TRAIN_FINISHED`	Trénování bylo dokončeno.	Trénování bylo dokončeno. Zahájí se nahrávání kontrolních bodů.
`COMPLETED`	Spuštění bylo dokončeno. Konečné váhy nahrané.	Kontrolní bod byl odeslán a spuštění bylo dokončeno.
`CANCELED`	Spuštění bylo zrušeno.	Spuštění se zruší, pokud `fm.cancel()` je na něm voláno.
`FAILED`	Některé ukázky trénování datové sady mají neznámé klíče. Projděte si dokumentaci k podporovaným datovým formátům.	Spuštění se nezdařilo. Zkontrolujte podrobnosti o akci nebo se obraťte `event_message` na podporu.

from databricks.model_training import foundation_model as fm

fm.get_events()

Použití uživatelského rozhraní k zobrazení a správě spuštění

Zobrazení spuštění v uživatelském rozhraní:

Kliknutím na Experimenty v levém navigačním panelu zobrazte stránku Experimenty.
V tabulce klikněte na název experimentu a zobrazte stránku experimentu. Na stránce experimentu jsou uvedeny všechna spuštění přidružená k experimentu.
Pokud chcete zobrazit další informace nebo metriky v tabulce, klikněte na symbol plus a vyberte položky, které se mají zobrazit z nabídky:
Další informace o spuštění jsou k dispozici na kartě Graf :
Můžete také kliknout na název spuštění a zobrazit obrazovku spuštění. Tato obrazovka poskytuje přístup k dalším podrobnostem o spuštění.

Kontrolní body

Pokud chcete získat přístup ke složce kontrolního bodu, klikněte na kartu Artefakty na obrazovce spuštění. Otevřete název experimentu a otevřete složku kontrolních bodů. Tyto kontrolní body artefaktů nejsou stejné jako zaregistrovaný model na konci trénovacího spuštění.

kontrolní bodová složka na kartě artefakty

V této složce je několik adresářů:

Složky epoch (pojmenované ep<n>-xxx) obsahují váhy a stavy modelu na každém kontrolním bodu Composer. Kontrolní body composeru se pravidelně ukládají prostřednictvím trénování, používají se k obnovení dolaďovacího trénování a průběžnému doladění. Tento kontrolní bod je ten, který předáváte jako custom_weights_path spuštění dalšího trénování z těchto vah, viz Build on custom model weights.
huggingface Ve složce se kontrolní body Hugging Face ukládají také pravidelně prostřednictvím trénování. Po stažení obsahu v této složce můžete tyto kontrolní body načíst stejně jako všechny ostatní kontrolní body Hugging Face checkpoint pomocí AutoModelForCausalLM.from_pretrained(<downloaded folder>).
Jedná se checkpoints/latest-sharded-rank0.symlink o soubor, který obsahuje cestu k nejnovějšímu kontrolnímu bodu, který můžete použít k obnovení trénování.

Kontrolní body Composer pro běh můžete získat také po jejich uložení pomocí get_checkpoints(run). Tato funkce přebírá objekt spuštění jako vstup. Pokud kontrolní body ještě neexistují, zobrazí se výzva k dalšímu pokusu po uložení kontrolních bodů.

Sdílet prostřednictvím