Get Databricks에서 LLM 쿼리 시작
이 문서에서는 Databricks에서 LLM을 제공하고 쿼리하기 위해 get이 Foundation Model API를 사용하기 시작한 방법을 설명합니다.
Databricks에서 LLM 모델을 제공하고 쿼리하는
AI 플레이그라운드를 사용하여 토큰당 종량제 모델을 테스트하고 채팅할 수도 있습니다. AI 플레이그라운드를 사용하여 LLM과 채팅 및 GenAI 앱 프로토타이핑을 참조하세요.
프로덕션 워크로드, 특히 미세 조정된 모델을 사용하거나 성능 보장이 필요한 워크로드의 경우 Databricks는 프로비전된 처리량 엔드포인트에서 파운데이션 모델 API를 사용하는 것이 좋습니다.
요구 사항
- 파운데이션 모델 API 토큰당 종량제에 대해 지원되는 지역의 Databricks 작업 영역입니다.
- OpenAI 클라이언트를 사용한 Mosaic AI 모델 서빙 엔드포인트를 쿼리하고 액세스하는 Databricks 개인용 액세스 토큰 입니다.
Important
프로덕션 시나리오에 대한 보안 모범 사례로 Databricks는 프로덕션 중에 인증을 위해 컴퓨터-컴퓨터 OAuth 토큰을 사용하는 것이 좋습니다.
테스트 및 개발을 위해 Databricks는 작업 영역 사용자 대신 서비스 주체에 속하는 개인용 액세스 토큰을 사용하는 것이 좋습니다. 서비스 주체에 대한 토큰을 만들려면 서비스 주체에 대한 토큰 관리를 참조하세요.
Get Foundation Model API를 사용하기 시작했습니다.
다음 예제는 Databricks Notebook에서 실행하기 위한 것입니다. 코드 예제에서는 토큰당 종량제 엔드포인트 에서 제공되는 databricks-meta-llama-3-1-405b-instruct
모델을 쿼리합니다.
이 예제에서는 OpenAI 클라이언트를 사용하여 쿼리하려는 모델을 호스트하는 모델 서빙 엔드포인트의 이름으로 model
필드를 채워 모델을 쿼리합니다. 개인 액세스 토큰을 사용하여 DATABRICKS_TOKEN
및 Databricks 작업 영역 인스턴스를 채우고 OpenAI 클라이언트를 Databricks에 연결합니다.
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")
client = OpenAI(
api_key=DATABRICKS_TOKEN, # your personal access token
base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are an AI assistant",
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
model="databricks-meta-llama-3-1-405b-instruct",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
참고 항목
ImportError: cannot import name 'OpenAI' from 'openai'
메시지가 표시되면 openai
를 사용하여 !pip install -U openai
버전을 업그레이드합니다. 패키지를 설치한 후 dbutils.library.restartPython()
을 실행합니다 .
예상 출력:
{
"id": "xxxxxxxxxxxxx",
"object": "chat.completion",
"created": "xxxxxxxxx",
"model": "databricks-meta-llama-3-1-405b-instruct",
"choices": [
{
"index": 0,
"message":
{
"role": "assistant",
"content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 123,
"completion_tokens": 23,
"total_tokens": 146
}
}
다음 단계
- AI 플레이그라운드를 사용하여 친숙한 채팅 인터페이스에서 다양한 모델을 사용해 보세요.
- 쿼리 기본 모델.
- 외부 모델을 사용하여 Databricks 외부에서 호스트되는 모델에 액세스합니다.
- 프로비전된 처리량 엔드포인트를 사용하여 미세 조정된 모델을 배포하는 방법을 알아봅니다.
- 모델 품질 및 엔드포인트 상태를 모니터링하는 방법을 탐색합니다.