Zobrazení, správa a analýza spuštění ladění základního modelu
Důležité
Tato funkce je ve verzi Public Preview v následujících oblastech: centralus
, eastus
, eastus2
, northcentralus
a westus
.
Tento článek popisuje, jak zobrazit, spravovat a analyzovat jemné ladění základního modelu (nyní součástí trénování modelu Puzzle AI) pomocí rozhraní API nebo pomocí uživatelského rozhraní.
Informace o vytváření spuštění najdete v tématu Vytvoření trénovacího spuštění pomocí rozhraní API pro vyladění základního modelu a vytvoření trénovacího spuštění pomocí uživatelského rozhraní pro vyladění modelu foundation.
Použití rozhraní API pro jemné ladění modelu Foundation k zobrazení a správě trénovacích běhů
Rozhraní API pro vyladění základního modelu poskytují následující funkce pro správu trénovacích běhů.
Získání spuštění
get()
Funkce slouží k vrácení spuštění podle názvu nebo spuštění objektu, který jste spustili.
from databricks.model_training import foundation_model as fm
fm.get('<your-run-name>')
Spuštění seznamu
list()
Pomocí funkce zobrazíte spuštění, která jste spustili. Následující tabulka uvádí volitelné filtry, které můžete zadat.
Volitelný filtr | Definice |
---|---|
finetuning_runs |
Seznam spuštění, která se mají získat. Ve výchozím nastavení vyberete všechna spuštění. |
user_emails |
Pokud jsou pro váš pracovní prostor povolená sdílená spuštění, můžete výsledky filtrovat podle uživatele, který spuštění trénování odeslal. Výchozí hodnota není filtr uživatele. |
before |
Řetězec datetime nebo datetime, který se má filtrovat dříve. Výchozí hodnota je pro všechna spuštění. |
after |
Řetězec datetime nebo datetime, který se má filtrovat po spuštění. Výchozí hodnota je pro všechna spuštění. |
from databricks.model_training import foundation_model as fm
fm.list()
# filtering example
fm.list(before='2023-01-01', limit=50)
Zrušení trénovacích běhů
Pokud chcete zrušit jedno trénovací spuštění, použijte cancel()
funkci a předejte název spuštění.
from databricks.model_training import foundation_model as fm
run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)
Pokud chcete zrušit více trénovacích spuštění, předejte konkrétní názvy spuštění jako seznam.
from databricks.model_training import foundation_model as fm
runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)
Pokud chcete zrušit všechna trénovací spuštění v experimentu, předejte ID experimentu.
from databricks.model_training import foundation_model as fm
experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)
Kontrola stavu trénovacích spuštění
Následující tabulka uvádí události vytvořené spuštěním trénování. get_events()
Funkci můžete použít kdykoli během spuštění, abyste viděli průběh spuštění.
Poznámka:
Vyladění základního modelu vynucuje limit 10 aktivních spuštění. Tato spuštění jsou buď ve frontě, spuštěné, nebo dokončují. Spuštění se už nepovažují za aktivní, jakmile jsou ve stavu DOKONČENO, SELHALO nebo ZASTAVENO.
Typ události | Příklad zprávy události | Definice |
---|---|---|
CREATED |
Spusťte vytvořenou. | Spuštění trénování bylo vytvořeno. Pokud jsou prostředky dostupné, spustí se spuštění. V opačném případě přejde do Pending stavu. |
STARTED |
Spuštění bylo spuštěno. | Prostředky byly přiděleny a spuštění se spustilo. |
DATA_VALIDATED |
Ověřená trénovací data | Ověřilo se, že jsou trénovací data správně naformátovaná. |
MODEL_INITIALIZED |
Data modelu stažena a inicializována pro základní model meta-llama/Llama-2-7b-chat-hf . |
Váhy základního modelu byly staženy a trénování je připravené začít. |
TRAIN_UPDATED |
[epoch=1/1][dávka=50/56][ETA=5min] Ztráta vlaku: 1.71 | Zaznamenává aktuální trénovací dávku, epochu nebo token, odhadovaný čas dokončení trénování (včetně času nahrávání kontrolního bodu) a ztrátu trénování. Tato událost se aktualizuje, když každá dávka skončí. Pokud konfigurace spuštění určuje max_duration v tok jednotkách, průběh se v tokenech hlásí. |
TRAIN_FINISHED |
Trénování bylo dokončeno. | Trénování bylo dokončeno. Zahájí se nahrávání kontrolních bodů. |
COMPLETED |
Spuštění bylo dokončeno. Konečné váhy nahrané. | Kontrolní bod byl odeslán a spuštění bylo dokončeno. |
CANCELED |
Spuštění bylo zrušeno. | Spuštění se zruší, pokud fm.cancel() je na něm voláno. |
FAILED |
Některé ukázky trénování datové sady mají neznámé klíče. Projděte si dokumentaci k podporovaným datovým formátům. | Spuštění se nezdařilo. Zkontrolujte podrobnosti o akci nebo se obraťte event_message na podporu. |
from databricks.model_training import foundation_model as fm
fm.get_events()
Použití uživatelského rozhraní k zobrazení a správě spuštění
Zobrazení spuštění v uživatelském rozhraní:
Kliknutím na Experimenty v levém navigačním panelu zobrazte stránku Experimenty.
V tabulce klikněte na název experimentu a zobrazte stránku experimentu. Na stránce experimentu jsou uvedeny všechna spuštění přidružená k experimentu.
Pokud chcete zobrazit další informace nebo metriky v tabulce, klikněte a vyberte položky, které se mají zobrazit v nabídce:
Další informace o spuštění jsou k dispozici na kartě Graf :
Můžete také kliknout na název spuštění a zobrazit obrazovku spuštění. Tato obrazovka poskytuje přístup k dalším podrobnostem o spuštění.
Kontrolní body
Pokud chcete získat přístup ke složce kontrolního bodu, klikněte na kartu Artefakty na obrazovce spuštění. Otevřete název experimentu a otevřete složku kontrolních bodů. Tyto kontrolní body artefaktů nejsou stejné jako zaregistrovaný model na konci trénovacího spuštění.
V této složce je několik adresářů:
- Složky epoch (pojmenované
ep<n>-xxx
) obsahují váhy a stavy modelu na každém kontrolním bodu Composer. Kontrolní body composeru se pravidelně ukládají prostřednictvím trénování, používají se k obnovení dolaďovacího trénování a průběžnému doladění. Tento kontrolní bod je ten, který předáváte jakocustom_weights_path
spuštění dalšího trénování z těchto vah, viz Build on custom model weights. huggingface
Ve složce se kontrolní body Hugging Face ukládají také pravidelně prostřednictvím trénování. Po stažení obsahu v této složce můžete tyto kontrolní body načíst stejně jako všechny ostatní kontrolní body Hugging Face checkpoint pomocíAutoModelForCausalLM.from_pretrained(<downloaded folder>)
.- Jedná se
checkpoints/latest-sharded-rank0.symlink
o soubor, který obsahuje cestu k nejnovějšímu kontrolnímu bodu, který můžete použít k obnovení trénování.
Můžete také získat kontrolní body Composer pro spuštění po jejich uložení pomocí get_checkpoints(run)
. Tato funkce přebírá objekt spuštění jako vstup. Pokud kontrolní body ještě neexistují, zobrazí se výzva k dalšímu pokusu po uložení kontrolních bodů.