다음을 통해 공유


Azure AI Services의 모델 유추 엔드포인트

Azure AI 서비스의 Azure AI 모델 유추를 통해 고객은 단일 엔드포인트 및 자격 증명을 사용하여 주력 모델 공급자의 가장 강력한 모델을 사용할 수 있습니다. 즉, 한 줄의 코드를 변경하지 않고 모델 간에 전환하고 애플리케이션에서 사용할 수 있습니다.

이 문서에서는 모델 구성 방법 및 유추 엔드포인트를 사용하여 모델을 호출하는 방법을 설명합니다.

배포

Azure AI 모델 유추를 통해 배포 개념을 사용하여 모델을 사용할 수 있습니다. 배포는 특정 구성에서 모델에 이름을 지정하는 방법입니다. 그런 다음 요청에 이름을 표시하여 이러한 모델 구성을 호출할 수 있습니다.

배포 캡처:

  • 모델 이름
  • 모델 버전
  • 프로비전/용량 유형1
  • 콘텐츠 필터링 구성1
  • 속도 제한 구성1

1 구성은 선택한 모델에 따라 달라질 수 있습니다.

Azure AI 서비스 리소스는 필요한 만큼의 모델 배포를 가질 수 있으며 이러한 모델에 대해 유추가 수행되지 않는 한 비용이 발생하지 않습니다. 배포는 Azure 리소스이므로 Azure 정책의 적용을 받습니다.

배포를 만드는 방법에 대한 자세한 내용은 모델 배포 추가 및 구성을 참조 하세요.

Azure AI 유추 엔드포인트

Azure AI 유추 엔드포인트를 사용하면 고객이 동일한 인증 및 스키마가 있는 단일 엔드포인트를 사용하여 리소스에 배포된 모델에 대한 유추를 생성할 수 있습니다. 이 엔드포인트는 Azure AI 모델 유추의 모든 모델이 지원하는 Azure AI 모델 유추 API 를 따릅니다. 다음과 같은 형식을 지원합니다.

  • 텍스트 포함
  • 이미지 포함
  • 채팅 완료

개요 섹션에서 엔드포인트 URL 및 자격 증명을 볼 수 있습니다.

리소스와 연결된 URL 및 키를 가져오는 방법을 보여 주는 스크린샷.

라우팅

유추 엔드포인트는 요청 내의 매개 변수 name 를 배포 이름과 일치시켜 요청을 지정된 배포로 라우팅합니다. 즉, 배포는 특정 구성에서 지정된 모델의 별칭으로 작동합니다. 이러한 유연성을 통해 서비스에서 지정된 모델을 여러 번 배포할 수 있지만 필요한 경우 다른 구성으로 배포할 수 있습니다.

메타-라마-3.2-8b 지시 모델에서 페이로드 요청 내의 매개 변수 'model'에 이러한 이름을 표시하여 라우팅이 작동하는 방식을 보여 주는 일러스트레이션입니다.

예를 들어 이름이 지정된 Mistral-large배포를 만드는 경우 이러한 배포를 다음과 같이 호출할 수 있습니다.

pip와 같은 패키지 관리 시스템을 사용하여 azure-ai-inference 패키지를 설치합니다.

pip install azure-ai-inference>=1.0.0b5

Warning

Azure AI Services 리소스에는 Python 버전 azure-ai-inference>=1.0.0b5 이 필요합니다.

그런 다음 패키지를 사용하여 모델을 이용할 수 있습니다. 다음 예에서는 채팅 완성을 이용하는 클라이언트를 만드는 방법을 보여 줍니다.

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

시작하려면 샘플을 살펴보고 API 참조 설명서를 참조하세요.

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

배포 라우팅은 대/소문자를 구분하지 않습니다.

SDK

Azure AI 모델 유추 엔드포인트는 여러 언어로 제공되는 Azure AI 유추 SDK, Azure AI Foundry SDKAzure OpenAI SDK를 비롯한 여러 SDK에서 지원됩니다. LangChain, LangGraph, Llama-Index, 의미 체계 커널 및 AG2와 같은 인기 있는 프레임워크에서도 여러 통합이 지원됩니다. 자세한 내용은 지원되는 프로그래밍 언어 및 SDK를 참조 하세요 .

Azure OpenAI 유추 엔드포인트

AI 서비스에 배포된 Azure OpenAI 모델도 Azure OpenAI API를 지원합니다. 이 API는 OpenAI 모델의 전체 기능을 노출하고 도우미, 스레드, 파일 및 일괄 처리 유추와 같은 추가 기능을 지원합니다.

Azure OpenAI 유추 엔드포인트는 배포 수준에서 작동하며 각 엔드포인트와 연결된 자체 URL이 있습니다. 그러나 동일한 인증 메커니즘을 사용하여 사용할 수 있습니다. Azure OpenAI API에 대한 참조 페이지에서 자세히 알아보기

Azure OpenAI 배포에 각 배포에 대한 단일 URL을 포함하는 방법을 보여 주는 그림입니다.

각 배포에는 Azure OpenAI 기본 URL 및 경로/deployments/<model-deployment-name>연결인 URL이 있습니다.

Important

각 URL은 각 모델 배포에만 사용되므로 Azure OpenAI 엔드포인트에 대한 라우팅 메커니즘은 없습니다.

SDK

Azure OpenAI 엔드포인트는 여러 언어로 제공되는 OpenAI SDK(AzureOpenAI 클래스)Azure OpenAI SDK에서 지원됩니다. 자세한 내용은 지원되는 언어를 참조 하세요 .

다음 단계