Delen via


Get begon met het uitvoeren van query's op LLM's bij Databricks

In dit artikel wordt beschreven hoe u get begonnen met het gebruik van Foundation Model-API's om LLM's op Databricks te leveren en er query's op uit te voeren.

De eenvoudigste manier om te get beginnen met het leveren en opvragen van LLM-modellen in Databricks, is het gebruik van Foundation Model-API's op basis van betalen per token. De API's bieden toegang tot populaire basismodellen van betalen per token-eindpunten die automatisch beschikbaar zijn in de gebruikersinterface van uw Databricks-werkruimte. Zie Ondersteunde modellen voor betalen per token.

U kunt ook betalen per token-modellen testen en chatten met behulp van de AI Playground. Zie Chat met LLM's en prototype GenAI-apps met AI Playground.

Voor productieworkloads, met name die met een nauwkeurig afgestemd model of waarvoor prestatiegaranties zijn vereist, raadt Databricks aan om Foundation Model-API's te gebruiken op een ingerichte doorvoereindpunt .

Vereisten

Belangrijk

Als best practice voor beveiliging voor productiescenario's raadt Databricks u aan om OAuth-tokens voor machine-naar-machine te gebruiken voor verificatie tijdens de productie.

Voor testen en ontwikkelen raadt Databricks aan om een persoonlijk toegangstoken te gebruiken dat hoort bij service-principals in plaats van werkruimtegebruikers. Zie Tokens voor een service-principal beheren om tokens voor service-principals te maken.

Get begonnen met het gebruik van Foundation Model-API's

Het volgende voorbeeld is bedoeld om te worden uitgevoerd in een Databricks-notebook. In het codevoorbeeld wordt het Meta Llama 3.1 405B Instruct-model opgevraagd dat wordt geleverd op het eindpunt databricks-meta-llama-3-1-405b-instructvoor betalen per token.

In dit voorbeeld gebruikt u de OpenAI-client om een query uit te voeren op het model door het model veld te vullen met de naam van het model dat als host fungeert voor het model dat als host fungeert voor het model waarop u een query wilt uitvoeren. Gebruik uw persoonlijke toegangstoken om het exemplaar van de DATABRICKS_TOKEN Databricks-werkruimte te vullen om de OpenAI-client te verbinden met Databricks.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Notitie

Als u het volgende bericht ImportError: cannot import name 'OpenAI' from 'openai'tegenkomt, voert u een upgrade uit van uw openai versie met behulp van !pip install -U openai. Nadat u het pakket hebt geïnstalleerd, voert u het uit dbutils.library.restartPython().

Verwachte uitvoer:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Volgende stappen