Udostępnij za pośrednictwem


Get rozpoczęło wykonywanie zapytań do LLM na platformie Databricks

W tym artykule opisano, jak get rozpocząć korzystanie z interfejsów API modelu foundation w celu obsługi maszyn LLM i wykonywania zapytań względem ich w usłudze Databricks.

Najprostszym sposobem get rozpoczęcie obsługi i wykonywania zapytań dotyczących modeli LLM w usłudze Databricks jest użycie interfejsów API modelu Foundation na podstawie płatności za token. Interfejsy API zapewniają dostęp do popularnych modeli podstawowych z punktów końcowych płatności za token, które są automatycznie dostępne w interfejsie użytkownika obsługującego obszar roboczy usługi Databricks. Zobacz Obsługiwane modele dotyczące płatności za token.

Możesz również przetestować modele płatności za token i porozmawiać z nimi przy użyciu narzędzia AI Playground. Zobacz Chat with LLMs and prototype GenAI apps using AI Playground (Czat z modułami LLM i prototypowymi aplikacjami GenAI korzystającymi ze środowiska sztucznej inteligencji).

W przypadku obciążeń produkcyjnych, szczególnie tych z dostosowanym modelem lub wymagających gwarancji wydajności, usługa Databricks zaleca używanie interfejsów API modelu foundation w aprowizowanym punkcie końcowym przepływności .

Wymagania

  • Obszar roboczy usługi Databricks w obsługiwanym regionie dla interfejsów API modelu foundation pay-per-token.
  • Osobisty token dostępu usługi Databricks umożliwiający wykonywanie zapytań i uzyskiwanie dostępu do punktów końcowych usługi Mosaic AI Model Serving przy użyciu klienta OpenAI.

Ważne

Najlepszym rozwiązaniem w zakresie zabezpieczeń w scenariuszach produkcyjnych usługa Databricks zaleca używanie tokenów OAuth maszyny do maszyny podczas uwierzytelniania w środowisku produkcyjnym.

W przypadku testowania i programowania usługa Databricks zaleca używanie osobistego tokenu dostępu należącego do jednostek usługi zamiast użytkowników obszaru roboczego. Aby utworzyć tokeny dla jednostek usługi, zobacz Zarządzanie tokenami dla jednostki usługi.

Get rozpoczęto korzystanie z interfejsów API modelu foundation

Poniższy przykład ma być uruchamiany w notesie usługi Databricks. Przykładowy kod wysyła zapytanie do modelu instrukcji Meta Llama 3.1 405B, który jest obsługiwany w punkcie końcowym databricks-meta-llama-3-1-405b-instructpłatności za token .

W tym przykładzie używasz klienta OpenAI do wykonywania zapytań dotyczących modelu, wypełniając model pole nazwą punktu końcowego obsługującego model, który hostuje model, którego chcesz wykonać zapytanie. Użyj osobistego tokenu dostępu, aby wypełnić DATABRICKS_TOKEN wystąpienie obszaru roboczego usługi Databricks i połączyć klienta openAI z usługą Databricks.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Uwaga

Jeśli wystąpi następujący komunikat ImportError: cannot import name 'OpenAI' from 'openai', uaktualnij openai wersję przy użyciu polecenia !pip install -U openai. Po zainstalowaniu pakietu uruchom polecenie dbutils.library.restartPython().

Oczekiwane dane wyjściowe:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Następne kroki