Get begon met het uitvoeren van query's op LLM's bij Databricks
In dit artikel wordt beschreven hoe u get begonnen met het gebruik van Foundation Model-API's om LLM's op Databricks te leveren en er query's op uit te voeren.
De eenvoudigste manier om te get beginnen met het leveren en opvragen van LLM-modellen in Databricks, is het gebruik van Foundation Model-API's op basis van betalen per token. De API's bieden toegang tot populaire basismodellen van betalen per token-eindpunten die automatisch beschikbaar zijn in de gebruikersinterface van uw Databricks-werkruimte. Zie Ondersteunde modellen voor betalen per token.
U kunt ook betalen per token-modellen testen en chatten met behulp van de AI Playground. Zie Chat met LLM's en prototype GenAI-apps met AI Playground.
Voor productieworkloads, met name die met een nauwkeurig afgestemd model of waarvoor prestatiegaranties zijn vereist, raadt Databricks aan om Foundation Model-API's te gebruiken op een ingerichte doorvoereindpunt .
Vereisten
- Een Databricks-werkruimte in een ondersteunde regio voor Foundation Model-API's betalen per token.
- Een persoonlijk toegangstoken van Databricks om eindpunten van Mosaic AI Model Serving op te vragen en te openen met behulp van de OpenAI-client.
Belangrijk
Als best practice voor beveiliging voor productiescenario's raadt Databricks u aan om OAuth-tokens voor machine-naar-machine te gebruiken voor verificatie tijdens de productie.
Voor testen en ontwikkelen raadt Databricks aan om een persoonlijk toegangstoken te gebruiken dat hoort bij service-principals in plaats van werkruimtegebruikers. Zie Tokens voor een service-principal beheren om tokens voor service-principals te maken.
Get begonnen met het gebruik van Foundation Model-API's
Het volgende voorbeeld is bedoeld om te worden uitgevoerd in een Databricks-notebook. In het codevoorbeeld wordt het Meta Llama 3.1 405B Instruct-model opgevraagd dat wordt geleverd op het eindpunt databricks-meta-llama-3-1-405b-instruct
voor betalen per token.
In dit voorbeeld gebruikt u de OpenAI-client om een query uit te voeren op het model door het model
veld te vullen met de naam van het model dat als host fungeert voor het model dat als host fungeert voor het model waarop u een query wilt uitvoeren. Gebruik uw persoonlijke toegangstoken om het exemplaar van de DATABRICKS_TOKEN
Databricks-werkruimte te vullen om de OpenAI-client te verbinden met Databricks.
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")
client = OpenAI(
api_key=DATABRICKS_TOKEN, # your personal access token
base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are an AI assistant",
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
model="databricks-meta-llama-3-1-405b-instruct",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
Notitie
Als u het volgende bericht ImportError: cannot import name 'OpenAI' from 'openai'
tegenkomt, voert u een upgrade uit van uw openai
versie met behulp van !pip install -U openai
. Nadat u het pakket hebt geïnstalleerd, voert u het uit dbutils.library.restartPython()
.
Verwachte uitvoer:
{
"id": "xxxxxxxxxxxxx",
"object": "chat.completion",
"created": "xxxxxxxxx",
"model": "databricks-meta-llama-3-1-405b-instruct",
"choices": [
{
"index": 0,
"message":
{
"role": "assistant",
"content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 123,
"completion_tokens": 23,
"total_tokens": 146
}
}
Volgende stappen
- Gebruik de AI-speeltuin om verschillende modellen uit te proberen in een vertrouwde chatinterface.
- querybasismodellen.
- Access-modellen die buiten Databricks worden gehost met behulp van externe modellen.
- Meer informatie over het implementeren van nauwkeurig afgestemde modellen met behulp van ingerichte doorvoereindpunten.
- Verken methoden om de kwaliteit en eindpuntstatus van het model te bewaken.