Začínáme s dotazováním LLM v Databricks
Tento článek popisuje, jak začít používat rozhraní API základního modelu pro obsluhu a dotazování LLM v Databricks.
Nejjednodušší způsob, jak začít se správou a dotazováním modelů LLM v Databricks, je použití rozhraní API základních modelů na platbami za token. Rozhraní API poskytují přístup k oblíbeným základním modelům z koncových bodů s platbami za tokeny, které jsou automaticky dostupné v uživatelském rozhraní obsluhy pracovního prostoru Databricks. Viz Podporované modely pro platby za token.
Pomocí AI Playground můžete také testovat a chatovat s modely s platbami za tokeny. Podívejte se na Chat s LLMs a prototypy generativních AI aplikací využívající AI Playground.
V případě produkčních úloh, zejména těch, které mají jemně vyladěný model nebo které vyžadují záruky výkonu, doporučuje Databricks používat rozhraní API základního modelu ve zřízeném koncovém bodu propustnosti .
Požadavky
- Pracovní prostor Databricks v podporované oblasti pro rozhraní API základního modelu s platbou za token.
- Token osobního přístupu Databricks k dotazování a přístupu ke koncovým bodům obsluhy modelu Mosaic AI pomocí klienta OpenAI.
Důležité
Jako osvědčený postup zabezpečení pro produkční scénáře doporučuje Databricks používat machine-to-machine OAuth tokeny pro ověřování během produkce.
Pro účely testování a vývoje doporučuje Databricks místo uživatelů pracovního prostoru používat osobní přístupový token patřící instančním objektům . Pokud chcete vytvořit tokeny pro instanční objekty, přečtěte si téma Správa tokenů instančního objektu.
Začínáme používat rozhraní API základního modelu
Následující příklad je určený ke spuštění v poznámkovém bloku Databricks. Příklad kódu dotazuje model Meta Llama 3.1 405B Instruct, který je obsluhován na koncovém bodu s platbami za tokendatabricks-meta-llama-3-1-405b-instruct
.
V tomto příkladu použijete klienta OpenAI k dotazování modelu vyplněním model
pole názvem koncového bodu obsluhujícího model, který je hostitelem modelu, který chcete dotazovat. Pomocí osobního přístupového tokenu DATABRICKS_TOKEN
naplňte instanci pracovního prostoru Databricks a připojte klienta OpenAI k Databricks.
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")
client = OpenAI(
api_key=DATABRICKS_TOKEN, # your personal access token
base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are an AI assistant",
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
model="databricks-meta-llama-3-1-405b-instruct",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
Poznámka:
Pokud se zobrazí následující zpráva ImportError: cannot import name 'OpenAI' from 'openai'
, upgradujte verzi openai
pomocí !pip install -U openai
. Po instalaci balíčku spusťte dbutils.library.restartPython()
příkaz .
Očekávaný výstup:
{
"id": "xxxxxxxxxxxxx",
"object": "chat.completion",
"created": "xxxxxxxxx",
"model": "databricks-meta-llama-3-1-405b-instruct",
"choices": [
{
"index": 0,
"message":
{
"role": "assistant",
"content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 123,
"completion_tokens": 23,
"total_tokens": 146
}
}
Další kroky
- Pomocí dětského hřiště AI si můžete vyzkoušet různé modely ve známém chatovacím rozhraní.
- základní modely dotazů.
- Přístup k modelům hostovaným mimo Databricks pomocí externích modelů
- Zjistěte, jak nasadit vyladěné modely pomocí koncových bodů se zřízenou propustností.
- Prozkoumejte metody monitorování kvality modelu a stavu koncového bodu.