Kurz: Vytvoření a nasazení ladění základního modelu
Důležité
Tato funkce je ve verzi Public Preview v následujících oblastech: centralus
, eastus
, eastus2
, northcentralus
a westus
.
Tento článek popisuje, jak vytvořit a nakonfigurovat spuštění pomocí rozhraní API základního jemného ladění modelu (nyní součástí rozhraní API Pro trénování modelů Puzzle AI) a pak zkontrolujte výsledky a nasaďte model pomocí uživatelského rozhraní Databricks a obsluhy modelu AI s využitím rozhraní Databricks.
Požadavky
- Pracovní prostor v jedné z následujících oblastí Azure:
centralus
,eastus
,eastus2
,northcentralus
,westcentralus
,westus
.westus3
. - Databricks Runtime 12.2 LTS ML nebo novější
- Tento kurz musí být spuštěný v poznámkovém bloku Databricks.
- Trénovací data v přijatém formátu Viz Příprava dat pro vyladění základního modelu.
Krok 1: Příprava dat na trénování
Viz Příprava dat pro vyladění základního modelu.
Krok 2: Instalace databricks_genai
sady SDK
K instalaci databricks_genai
sady SDK použijte následující příkaz.
%pip install databricks_genai
Potom naimportujte knihovnu foundation_model
:
dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm
Krok 3: Vytvoření trénovacího spuštění
Vytvořte trénovací běh pomocí funkce jemného ladění základního create()
modelu. Vyžaduje se následující parameters:
-
model
: model, který chcete trénovat. -
train_data_path
: umístění trénovací datové sady v. -
register_to
: Unity Catalogcatalog a schemawhere, ve kterých chcete uložit kontrolní body.
Příklad:
run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
register_to='main.my-directory',
training_duration='1ep')
run
Krok 4: Zobrazení stavu spuštění
Doba potřebnou k dokončení trénování závisí na počtu tokenů, modelu a dostupnosti GPU. Pro rychlejší trénování doporučuje Databricks používat rezervované výpočetní prostředky. Podrobnosti vám poskytne tým účtu Databricks.
Po spuštění můžete monitorovat stav spuštění pomocí get_events()
.
run.get_events()
Krok 5: Zobrazení metrik a výstupů
Pokud chcete zobrazit výsledky v uživatelském rozhraní Databricks, postupujte takto:
- V pracovním prostoru Databricks klikněte na Experimenty v levém navigačním panelu.
- Select váš experiment z list.
- Projděte si grafy metrik na kartě Grafy . Metriky trénování se generují pro každé trénovací spuštění a metriky vyhodnocení se generují jenom v případě, že je k dispozici cesta k datům vyhodnocení.
- Primární metrika trénování znázorňující průběh je ztráta. Ztrátu vyhodnocení můžete použít k tomu, abyste zjistili, jestli váš model přeurčuje trénovací data. Ztráta by se ale neměla spoléhat úplně, protože v úlohách trénování pod dohledem se může zdát, že ztráta vyhodnocení je přeurčení, zatímco model stále vylepšuje.
- Čím vyšší je přesnost modelu vyšší, ale mějte na paměti, že přesnost téměř 100 % může ukázat přeurčení.
- Po spuštění se v MLflow zobrazí následující metriky:
-
LanguageCrossEntropy
vypočítá entropii na výstupech modelování jazyka. Nižší skóre je lepší. -
LanguagePerplexity
měří, jak dobře jazykový model předpovídá další slovo nebo znak v bloku textu na základě předchozích slov nebo znaků. Nižší skóre je lepší. -
TokenAccuracy
vypočítá přesnost na úrovni tokenů pro modelování jazyka. Vyšší skóre je lepší.
-
- Na této kartě můžete také zobrazit výstup výzev k vyhodnocení, pokud jste je zadali.
Krok 6: Vyhodnocení více přizpůsobených modelů s využitím vyhodnocení agenta Mosaic AI před nasazením
Podívejte se , co je hodnocení agenta AI v systému Mosaic?.
Krok 7: Nasazení modelu
Trénovací běh po dokončení automaticky zaregistruje váš model v Unity Catalog. Model je registrován na základě toho, co jste zadali v register_to
poli v metodě spuštění create()
.
Pokud chcete nasadit model pro obsluhu, postupujte takto:
- Přejděte k modelu v Unity Catalog.
- Klikněte na Možnost Obsluhovat tento model.
- Klikněte na Vytvořit koncový bod obsluhy.
- Do pole Název zadejte název koncového bodu.
- Klikněte na Vytvořit.
Další materiály
- Vytvoření trénovacího spuštění pomocí rozhraní API pro vyladění základního modelu
- Vyladění základního modelu
- Obsluha modelů s využitím Azure Databricks
- Podívejte se na podrobné ladění instrukcí: Pojmenovaný poznámkový blok ukázky rozpoznávání entit pro příklad podrobného ladění instrukcí, který vás provede přípravou dat, vyladěním konfigurace a nasazením trénovacího spuštění.