Erste Schritte beim Abfragen von LLMs in Databricks
In diesem Artikel werden die ersten Schritte bei der Verwendung von Foundation Model-APIs beschrieben, um LLMs in Databricks bereitzustellen und abzufragen.
Die einfachste Möglichkeit, um mit der Bereitstellung von LLM-Modellen und deren Abfrage in Databricks zu beginnen, ist die Verwendung von Foundation Model-APIs auf Pay-per-Token-Basis. Die APIs bieten Zugriff auf beliebte Foundation Model-Implementierungen über Pay-per-Token-Endpunkte, die automatisch auf der Benutzeroberfläche des Databricks-Arbeitsbereichs zur Verfügung stehen. Weitere Informationen finden Sie unter Unterstützte Modelle für Pay-per-Token.
Sie können Modelle mit tokenbasierter Bezahlung auch mithilfe des KI-Playground testen und für Chats verwenden. Siehe Chatten mit LLMs und Prototypen-GenAI-Apps im KI-Playground.
Für Workloads in der Produktion, insbesondere solche mit einem fein abgestimmten Modell oder bei denen Leistungsgarantien erforderlich sind, empfiehlt Databricks die Verwendung von Foundation Model APIs auf einem bereitgestellten Durchsatzendpunkt.
Anforderungen
- Ein Databricks-Arbeitsbereich in einer unterstützten Region für Foundation Model-APIs mit Pay-per-Token.
- Ein persönlicher Databricks-Zugriffstoken zum Abfragen von und Zugreifen auf Mosaic AI Model Serving-Endpunkte mit dem OpenAI-Client.
Wichtig
Als bewährte Sicherheitsmethode für Produktionsszenarien empfiehlt Databricks, Computer-zu-Computer-OAuth-Token für die Authentifizierung während der Produktion zu verwenden.
Für die Test- und Entwicklungsphase empfiehlt Databricks die Verwendung eines persönlichen Zugriffstokens, das Dienstprinzipalen anstelle von Arbeitsbereichsbenutzern gehört. Informationen zum Erstellen von Token für Dienstprinzipale finden Sie unter Verwalten von Token für einen Dienstprinzipal.
Erste Schritte mit Foundation Model-APIs
Das folgende Beispiel soll in einem Databricks-Notebook ausgeführt werden. Das Codebeispiel fragt das Meta Llama 3.1 405B Instruct-Modell ab, das am Pay-per-Token-Endpunkt databricks-meta-llama-3-1-405b-instruct
bereitgestellt wird.
In diesem Beispiel verwenden Sie den OpenAI-Client, um das Modell abzufragen, indem Sie das Feld model
mit dem Namen des Modellbereitstellungsendpunkts ausfüllen, der das Modell hostet, das Sie abfragen möchten. Verwenden Sie Ihr persönliches Zugriffstoken, um DATABRICKS_TOKEN
und die Databricks-Arbeitsbereichsinstanz zu befüllen, um den OpenAI-Client mit Databricks zu verbinden.
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")
client = OpenAI(
api_key=DATABRICKS_TOKEN, # your personal access token
base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are an AI assistant",
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
model="databricks-meta-llama-3-1-405b-instruct",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
Hinweis
Wenn die folgende Meldung auftritt ImportError: cannot import name 'OpenAI' from 'openai'
aktualisieren Sie Ihre openai
-Version mithilfe von !pip install -U openai
. Führen Sie nach der Installation des Pakets dbutils.library.restartPython()
aus.
Erwartete Ausgabe:
{
"id": "xxxxxxxxxxxxx",
"object": "chat.completion",
"created": "xxxxxxxxx",
"model": "databricks-meta-llama-3-1-405b-instruct",
"choices": [
{
"index": 0,
"message":
{
"role": "assistant",
"content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 123,
"completion_tokens": 23,
"total_tokens": 146
}
}
Nächste Schritte
- Verwenden Sie den KI-Playground, um verschiedene Modelle in einer vertrauten Chatoberfläche auszuprobieren.
- Abfragegenerive KI-Modelle.
- Zugriffsmodelle, die außerhalb von Databricks mit externen Modellen gehostet werden
- Erfahren Sie, wie Sie optimierte Modelle mithilfe von Endpunkten mit bereitgestelltem Durchsatz bereitstellen.
- Erkunden Sie Methoden zum Überwachen der Modellqualität und der Endpunktintegrität.