Kurz: Nasazení a dotazování vlastního modelu
Tento článek obsahuje základní kroky pro nasazení a dotazování vlastního modelu, což je tradiční model ML s využitím obsluhy modelu Mosaic AI. Model musí být zaregistrovaný v Unity Catalog nebo v registru modelu pracovního prostoru.
Další informace o poskytování a nasazování modelů generování AI najdete v následujících článcích:
Krok 1: Protokolování modelu
Existují různé způsoby, jak model protokolovat pro obsluhu modelu:
Technika protokolování | Popis |
---|---|
Automatické přihlašování | To se automaticky zapne, když pro strojové učení použijete Databricks Runtime. Je to nejjednodušší způsob, ale dává vám menší kontrolu. |
Protokolování pomocí předdefinovaných příchutí MLflow | Model můžete ručně protokolovat pomocí předdefinovaných modelů MLflow. |
Vlastní protokolování s využitím pyfunc |
Tuto možnost použijte, pokud máte vlastní model nebo pokud potřebujete další kroky před nebo po odvozování. |
Následující příklad ukazuje, jak zaznamenat model MLflow pomocí varianty transformer
a specifikovat parameters, které potřebujete pro váš model.
with mlflow.start_run():
model_info = mlflow.transformers.log_model(
transformers_model=text_generation_pipeline,
artifact_path="my_sentence_generator",
inference_config=inference_config,
registered_model_name='gpt2',
input_example=input_example,
signature=signature
)
Po zaprotokolování modelu nezapomeňte zkontrolovat, jestli je váš model zaregistrovaný buď v
Krok 2: Vytvoření koncového bodu pomocí uživatelského rozhraní obsluhy
Po zaprotokolování zaregistrovaného modelu a jeho obsluhu můžete vytvořit koncový bod obsluhující model pomocí uživatelského rozhraní pro obsluhu.
Kliknutím na obsluhu na bočním panelu zobrazte uživatelské rozhraní obsluhy.
Klikněte na Vytvořit koncový bod obsluhy.
Do pole Název zadejte název koncového bodu.
V části Obsluhované entity
- Kliknutím do pole Entita otevřete formulář Select obsluhované entity.
- Select typ modelu, který chcete použít. Formulář se dynamicky aktualizuje na základě vašeho výběru.
- Select, který model a verzi modelu chcete použít.
- Select procento provozu, které se má směrovat do vašeho obsluhovaného modelu.
- Select jakou velikost výpočetního prostředku použít.
- Pod Škálování výpočetní kapacity, select určuje velikost škálování výpočetních prostředků v závislosti na počtu požadavků, které tento model může současně zpracovávat. Toto číslo by se mělo přibližně rovnat času provádění modelu QPS x.
- Dostupné velikosti jsou malé pro 0 až 4 požadavky, středně velké 8 až 16 požadavků a velké pro požadavky 16 až 64.
- Určete, jestli se má koncový bod při použití škálovat na nulu.
Klikněte na Vytvořit. Stránka Obslužné koncové body se zobrazí se stavemobsluhy koncového bodu, který je zobrazený jako Nepřipravený.
Pokud dáváte přednost programovému vytvoření koncového bodu pomocí rozhraní Databricks Serving API, přečtěte si téma Vytvoření vlastních modelů obsluhujících koncové body.
Krok 3: Dotazování koncového bodu
Nejjednodušším a nejrychlejším způsobem, jak otestovat a odeslat žádosti o bodování do obsluhy modelu, je použít uživatelské rozhraní obsluhy .
Na stránce Obsluha koncového boduselectkoncový bod dotazu.
Insert vstupní data modelu ve formátu JSON a klikněte na Odeslat požadavek. Pokud byl model zaprotokolován pomocí vstupního příkladu, klikněte na Zobrazit příklad a načtěte příklad vstupu.
{ "inputs" : ["Hello, I'm a language model,"], "params" : {"max_new_tokens": 10, "temperature": 1} }
Pokud chcete odesílat žádosti o bodování, vytvořte JSON s jedním z podporovaných klíčů a objektem JSON odpovídajícím vstupnímu formátu. Viz Dotazy obsluhující koncové body pro vlastní modely pro podporované formáty a pokyny k odesílání žádostí o bodování pomocí rozhraní API.
Pokud máte v úmyslu získat přístup ke svému koncovému bodu obsluhy mimo uživatelské rozhraní služby Azure Databricks, potřebujete .DATABRICKS_API_TOKEN
Důležité
Jako osvědčený postup zabezpečení pro produkční scénáře doporučuje Databricks používat tokeny OAuth počítače pro ověřování během produkčního prostředí.
Pro účely testování a vývoje doporučuje Databricks místo uživatelů pracovního prostoru používat osobní přístupový token patřící instančním objektům . Pokud chcete vytvořit tokeny pro instanční objekty, přečtěte si téma Správa tokenů instančního objektu.
Příklady poznámkových bloků
Podívejte se na následující poznámkový blok pro obsluhu modelu MLflow transformers
s obsluhou modelů.
Nasazení poznámkového bloku modelu Hugging Face transformers
poznámkového bloku
Podívejte se na následující poznámkový blok pro obsluhu modelu MLflow pyfunc
s obsluhou modelů. Další podrobnosti o přizpůsobení nasazení modelu najdete v tématu Nasazení kódu Pythonu pomocí služby Model Serving.