Sdílet prostřednictvím


Kurz: Vytvoření a nasazení ladění základního modelu

Důležité

Tato funkce je ve verzi Public Preview v následujících oblastech: centralus, eastus, eastus2, northcentralusa westus.

Tento článek popisuje, jak vytvořit a nakonfigurovat spuštění pomocí rozhraní API základního jemného ladění modelu (nyní součástí rozhraní API Pro trénování modelů Puzzle AI) a pak zkontrolujte výsledky a nasaďte model pomocí uživatelského rozhraní Databricks a obsluhy modelu AI s využitím rozhraní Databricks.

Požadavky

  • Pracovní prostor v jedné z následujících oblastí Azure: centralus, eastus, eastus2, northcentralus, westcentralus, westus. westus3.
  • Databricks Runtime 12.2 LTS ML nebo novější
  • Tento kurz musí být spuštěný v poznámkovém bloku Databricks.
  • Trénovací data v přijatém formátu Viz Příprava dat pro vyladění základního modelu.

Krok 1: Příprava dat na trénování

Viz Příprava dat pro vyladění základního modelu.

Krok 2: Instalace databricks_genai sady SDK

K instalaci databricks_genai sady SDK použijte následující příkaz.

%pip install databricks_genai

Potom naimportujte knihovnu foundation_model :

dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm

Krok 3: Vytvoření trénovacího spuštění

Vytvořte trénovací běh pomocí funkce jemného ladění základního create() modelu. Vyžaduje se následující parameters:

  • model: model, který chcete trénovat.
  • train_data_path: umístění trénovací datové sady v.
  • register_to: Unity Catalogcatalog a schemawhere, ve kterých chcete uložit kontrolní body.

Příklad:

run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
                train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
                register_to='main.my-directory',
                training_duration='1ep')

run

Krok 4: Zobrazení stavu spuštění

Doba potřebnou k dokončení trénování závisí na počtu tokenů, modelu a dostupnosti GPU. Pro rychlejší trénování doporučuje Databricks používat rezervované výpočetní prostředky. Podrobnosti vám poskytne tým účtu Databricks.

Po spuštění můžete monitorovat stav spuštění pomocí get_events().

run.get_events()

Krok 5: Zobrazení metrik a výstupů

Pokud chcete zobrazit výsledky v uživatelském rozhraní Databricks, postupujte takto:

  1. V pracovním prostoru Databricks klikněte na Experimenty v levém navigačním panelu.
  2. Select váš experiment z list.
  3. Projděte si grafy metrik na kartě Grafy . Metriky trénování se generují pro každé trénovací spuštění a metriky vyhodnocení se generují jenom v případě, že je k dispozici cesta k datům vyhodnocení.
    1. Primární metrika trénování znázorňující průběh je ztráta. Ztrátu vyhodnocení můžete použít k tomu, abyste zjistili, jestli váš model přeurčuje trénovací data. Ztráta by se ale neměla spoléhat úplně, protože v úlohách trénování pod dohledem se může zdát, že ztráta vyhodnocení je přeurčení, zatímco model stále vylepšuje.
    2. Čím vyšší je přesnost modelu vyšší, ale mějte na paměti, že přesnost téměř 100 % může ukázat přeurčení.
    3. Po spuštění se v MLflow zobrazí následující metriky:
      • LanguageCrossEntropy vypočítá entropii na výstupech modelování jazyka. Nižší skóre je lepší.
      • LanguagePerplexity měří, jak dobře jazykový model předpovídá další slovo nebo znak v bloku textu na základě předchozích slov nebo znaků. Nižší skóre je lepší.
      • TokenAccuracy vypočítá přesnost na úrovni tokenů pro modelování jazyka. Vyšší skóre je lepší.
    4. Na této kartě můžete také zobrazit výstup výzev k vyhodnocení, pokud jste je zadali.

Krok 6: Vyhodnocení více přizpůsobených modelů s využitím vyhodnocení agenta Mosaic AI před nasazením

Podívejte se , co je hodnocení agenta AI v systému Mosaic?.

Krok 7: Nasazení modelu

Trénovací běh po dokončení automaticky zaregistruje váš model v Unity Catalog. Model je registrován na základě toho, co jste zadali v register_to poli v metodě spuštění create() .

Pokud chcete nasadit model pro obsluhu, postupujte takto:

  1. Přejděte k modelu v Unity Catalog.
  2. Klikněte na Možnost Obsluhovat tento model.
  3. Klikněte na Vytvořit koncový bod obsluhy.
  4. Do pole Název zadejte název koncového bodu.
  5. Klikněte na Vytvořit.

Další materiály