Azure AI サービスのモデル推論エンドポイント

[アーティクル]
02/04/2025

Azure AI サービスの Azure AI モデル推論を使用すると、お客様が、1 つのエンドポイントと資格情報を使用して、フラグシップモデルプロバイダーから最も強力なモデルを実行できるようになります。つまり、1 行のコードも変更することなく、モデルを切り替えてお使いのアプリケーションから実行できます。

この記事では、サービス内でモデルを編成する方法と、推論エンドポイントを使用してそれらを呼び出す方法について説明します。

デプロイ

Azure AI モデル推論では、デプロイの概念を使用してモデルを使用できるようになります。 デプロイでは、特定の構成でモデルに名前を付けることができます。その後、要求でその名前を示すことで、このようなモデル構成を呼び出すことができます。

デプロイでは以下がキャプチャされます。

モデル名
モデルバージョン
プロビジョニング/容量の種類¹
コンテンツフィルタリングの構成¹
レート制限の構成¹

¹ 構成は、選択したモデルによって異なる場合があります。

Azure AI サービスリソースには必要な数のモデルデプロイを含めることができます。また、それらのモデルに対して推論が実行されない限り、コストは発生しません。デプロイは Azure リソースであるため、Azure ポリシーの対象となります。

デプロイの作成方法の詳細については、モデルデプロイの追加と構成に関する記事を参照してください。

Azure AI 推論エンドポイント

Azure AI 推論エンドポイントを使用すると、お客様が、同じ認証とスキーマによる 1 つのエンドポイントを使用して、リソースにデプロイされたモデルの推論を生成できるようになります。このエンドポイントは、Azure AI モデル推論のすべてのモデルがサポートしている Azure AI モデル推論 API に従います。これは、次のモダリティをサポートしています。

テキスト埋め込み
画像埋め込み
チャット入力候補

エンドポイントの URL と資格情報は、[概要] セクションで確認できます。

ルーティング

推論エンドポイントは、要求の内部の name パラメーターをデプロイの名前と照合することで、要求を特定のデプロイにルーティングします。つまり、"デプロイは、特定の構成下で特定のモデルのエイリアスとして機能する" ということです。この柔軟性により、特定のモデルをサービスで複数回デプロイできますが、必要に応じて異なる構成でデプロイできます。

たとえば、Mistral-large という名前のデプロイを作成した場合、そのようなデプロイを次のようにして呼び出すことができます。

pip のように、パッケージマネージャーを使用してパッケージ azure-ai-inference をインストールします。

pip install azure-ai-inference>=1.0.0b5

警告

Azure AI サービスリソースには、Python のバージョン azure-ai-inference>=1.0.0b5 が必要です。

その後、パッケージを使用してモデルを使用できます。次の例では、チャット入力候補を使用してクライアントを作成する方法を示します。

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

サンプルを確認し、API リファレンスドキュメントを参照して、作業を開始してください。

npm を使用してパッケージ @azure-rest/ai-inference をインストールします。

npm install @azure-rest/ai-inference

その後、パッケージを使用してモデルを使用できます。次の例では、チャット入力候補を使用してクライアントを作成する方法を示します。

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    "https://<resource>.services.ai.azure.com/models", 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

サンプルを確認し、API リファレンスドキュメントを参照して、作業を開始してください。

次のコマンドを使用して Azure AI 推論ライブラリをインストールします:

dotnet add package Azure.AI.Inference --prerelease

次の名前空間をインポートします。

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

その後、パッケージを使用してモデルを使用できます。次の例では、チャット入力候補を使用してクライアントを作成する方法を示します。

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri("https://<resource>.services.ai.azure.com/models"),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

サンプルを確認し、API リファレンスドキュメントを参照して、作業を開始してください。

パッケージをプロジェクトに追加します。

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

その後、パッケージを使用してモデルを使用できます。次の例では、チャット入力候補を使用してクライアントを作成する方法を示します。

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

サンプルを確認し、API リファレンスドキュメントを参照して、作業を開始してください。

リファレンスセクションを活用して、API の設計と使用可能なパラメーターを調べることができます。たとえば、チャット補完のリファレンスセクションでは、ルート /chat/completions を使用し、チャット形式の指示に基づいて予測を生成する方法について詳しく説明しています。パス /models が URL のルートに含まれていることに注目してください。

Request

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletions chatCompletions = client.complete(new ChatCompletionsOptions(chatMessages));

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

Request

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

ヒント

デプロイのルーティングでは、大文字と小文字は区別されません。

SDK

Azure AI モデル推論エンドポイントは、Azure AI 推論 SDK、Azure AI Foundry SDK、Azure OpenAI SDKなどの複数の SDK でサポートされており、これらは複数の言語で利用できます。 LangChain、LangGraph、Llama-Index、Semantic Kernel、AG2 などの一般的なフレームワークでも、複数の統合がサポートされています。詳細については、サポートされているプログラミング言語と SDK を参照してください。

Azure OpenAI 推論エンドポイント

AI サービスにデプロイされている Azure OpenAI モデルでは、Azure OpenAI API もサポートされています。この API は、OpenAI モデルのすべての機能を公開し、アシスタント、スレッド、ファイル、バッチ推論などの追加機能をサポートします。

Azure OpenAI 推論エンドポイントは、デプロイレベルで動作し、それぞれに関連付けられた独自の URL を持ちます。ただし、同じ認証メカニズムを使用してこれらを実行できます。詳細については、Azure OpenAI API のリファレンスページを参照してください

各デプロイには、Azure OpenAI のベース URL とルート /deployments/<model-deployment-name> を連結した URL があります。

重要

各 URL はそれぞれのモデルデプロイ専用であるため、Azure OpenAI エンドポイントのルーティングメカニズムはありません。

SDK

Azure OpenAI エンドポイントは、OpenAI SDK (AzureOpenAI クラス) と Azure OpenAI SDK でサポートされており、これらは複数の言語で利用できます。詳細については、サポートされている言語を参照してください。

次の方法で共有

Azure AI サービスのモデル推論エンドポイント

デプロイ

Azure AI 推論エンドポイント

ルーティング

SDK

Azure OpenAI 推論エンドポイント

SDK

次のステップ

フィードバック

その他のリソース