Sdílet prostřednictvím


Zobrazení, správa a analýza spuštění ladění základního modelu

Důležité

Tato funkce je ve verzi Public Preview v následujících oblastech: centralus, eastus, eastus2, northcentralusa westus.

Tento článek popisuje, jak zobrazit, spravovat a analyzovat jemné ladění základního modelu (nyní součástí trénování modelu Puzzle AI) pomocí rozhraní API nebo pomocí uživatelského rozhraní.

Informace o vytváření spuštění najdete v tématu Vytvoření trénovacího spuštění pomocí rozhraní API pro vyladění základního modelu a vytvoření trénovacího spuštění pomocí uživatelského rozhraní pro vyladění modelu foundation.

Použití rozhraní API pro jemné ladění modelu Foundation k zobrazení a správě trénovacích běhů

Rozhraní API pro vyladění základního modelu poskytují následující funkce pro správu trénovacích běhů.

Získání spuštění

get() Funkce slouží k vrácení spuštění podle názvu nebo spuštění objektu, který jste spustili.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Spuštění seznamu

list() Pomocí funkce zobrazíte spuštění, která jste spustili. Následující tabulka uvádí volitelné filtry, které můžete zadat.

Volitelný filtr Definice
finetuning_runs Seznam spuštění, která se mají získat. Ve výchozím nastavení vyberete všechna spuštění.
user_emails Pokud jsou pro váš pracovní prostor povolená sdílená spuštění, můžete výsledky filtrovat podle uživatele, který spuštění trénování odeslal. Výchozí hodnota není filtr uživatele.
before Řetězec datetime nebo datetime, který se má filtrovat dříve. Výchozí hodnota je pro všechna spuštění.
after Řetězec datetime nebo datetime, který se má filtrovat po spuštění. Výchozí hodnota je pro všechna spuštění.
from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

Zrušení trénovacích běhů

Pokud chcete zrušit jedno trénovací spuštění, použijte cancel() funkci a předejte název spuštění.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Pokud chcete zrušit více trénovacích spuštění, předejte konkrétní názvy spuštění jako seznam.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

Pokud chcete zrušit všechna trénovací spuštění v experimentu, předejte ID experimentu.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

Kontrola stavu trénovacích spuštění

Následující tabulka uvádí události vytvořené spuštěním trénování. get_events() Funkci můžete použít kdykoli během spuštění, abyste viděli průběh spuštění.

Poznámka:

Vyladění základního modelu vynucuje limit 10 aktivních spuštění. Tato spuštění jsou buď ve frontě, spuštěné, nebo dokončují. Spuštění se už nepovažují za aktivní, jakmile jsou ve stavu DOKONČENO, SELHALO nebo ZASTAVENO.

Typ události Příklad zprávy události Definice
CREATED Spusťte vytvořenou. Spuštění trénování bylo vytvořeno. Pokud jsou prostředky dostupné, spustí se spuštění. V opačném případě přejde do Pending stavu.
STARTED Spuštění bylo spuštěno. Prostředky byly přiděleny a spuštění se spustilo.
DATA_VALIDATED Ověřená trénovací data Ověřilo se, že jsou trénovací data správně naformátovaná.
MODEL_INITIALIZED Data modelu stažena a inicializována pro základní model meta-llama/Llama-2-7b-chat-hf. Váhy základního modelu byly staženy a trénování je připravené začít.
TRAIN_UPDATED [epoch=1/1][dávka=50/56][ETA=5min] Ztráta vlaku: 1.71 Zaznamenává aktuální trénovací dávku, epochu nebo token, odhadovaný čas dokončení trénování (včetně času nahrávání kontrolního bodu) a ztrátu trénování. Tato událost se aktualizuje, když každá dávka skončí. Pokud konfigurace spuštění určuje max_duration v tok jednotkách, průběh se v tokenech hlásí.
TRAIN_FINISHED Trénování bylo dokončeno. Trénování bylo dokončeno. Zahájí se nahrávání kontrolních bodů.
COMPLETED Spuštění bylo dokončeno. Konečné váhy nahrané. Kontrolní bod byl odeslán a spuštění bylo dokončeno.
CANCELED Spuštění bylo zrušeno. Spuštění se zruší, pokud fm.cancel() je na něm voláno.
FAILED Některé ukázky trénování datové sady mají neznámé klíče. Projděte si dokumentaci k podporovaným datovým formátům. Spuštění se nezdařilo. Zkontrolujte podrobnosti o akci nebo se obraťte event_message na podporu.
from databricks.model_training import foundation_model as fm

fm.get_events()

Použití uživatelského rozhraní k zobrazení a správě spuštění

Zobrazení spuštění v uživatelském rozhraní:

  1. Kliknutím na Experimenty v levém navigačním panelu zobrazte stránku Experimenty.

  2. V tabulce klikněte na název experimentu a zobrazte stránku experimentu. Na stránce experimentu jsou uvedeny všechna spuštění přidružená k experimentu.

    stránka experimentu

  3. Pokud chcete zobrazit další informace nebo metriky v tabulce, klikněte a znaménko plus vyberte položky, které se mají zobrazit v nabídce:

    přidání metrik do grafu

  4. Další informace o spuštění jsou k dispozici na kartě Graf :

    chart tab

  5. Můžete také kliknout na název spuštění a zobrazit obrazovku spuštění. Tato obrazovka poskytuje přístup k dalším podrobnostem o spuštění.

    stránka spustit

Kontrolní body

Pokud chcete získat přístup ke složce kontrolního bodu, klikněte na kartu Artefakty na obrazovce spuštění. Otevřete název experimentu a otevřete složku kontrolních bodů. Tyto kontrolní body artefaktů nejsou stejné jako zaregistrovaný model na konci trénovacího spuštění.

kontrolní bodová složka na kartě artefakty

V této složce je několik adresářů:

  • Složky epoch (pojmenované ep<n>-xxx) obsahují váhy a stavy modelu na každém kontrolním bodu Composer. Kontrolní body composeru se pravidelně ukládají prostřednictvím trénování, používají se k obnovení dolaďovacího trénování a průběžnému doladění. Tento kontrolní bod je ten, který předáváte jako custom_weights_path spuštění dalšího trénování z těchto vah, viz Build on custom model weights.
  • huggingface Ve složce se kontrolní body Hugging Face ukládají také pravidelně prostřednictvím trénování. Po stažení obsahu v této složce můžete tyto kontrolní body načíst stejně jako všechny ostatní kontrolní body Hugging Face checkpoint pomocí AutoModelForCausalLM.from_pretrained(<downloaded folder>).
  • Jedná se checkpoints/latest-sharded-rank0.symlink o soubor, který obsahuje cestu k nejnovějšímu kontrolnímu bodu, který můžete použít k obnovení trénování.

Můžete také získat kontrolní body Composer pro spuštění po jejich uložení pomocí get_checkpoints(run). Tato funkce přebírá objekt spuštění jako vstup. Pokud kontrolní body ještě neexistují, zobrazí se výzva k dalšímu pokusu po uložení kontrolních bodů.