Modellinferenzendpunkt in Azure KI Services

Artikel
02/04/2025

Die Azure KI-Modellinferenz in Azure KI Services ermöglicht es Kunden, die leistungsstärksten Modelle von führenden Modellanbietern über einen einzigen Endpunkt mit entsprechenden Anmeldeinformationen zu nutzen. Dies bedeutet, dass Sie zwischen Modellen wechseln und diese aus Ihrer Anwendung nutzen können, ohne eine einzelne Codezeile zu ändern.

In diesem Artikel wird erläutert, wie Modelle innerhalb des Diensts organisiert werden und wie sie mithilfe des Rückschlussendpunkts aufgerufen werden.

Bereitstellungen

Der Azure KI-Modellinferenzdienst stellt Modelle mithilfe des Bereitstellungskonzepts zur Verfügung. Bereitstellungen sind eine Möglichkeit, einem Modell einen Namen unter bestimmten Konfigurationen zuzuweisen. Dann können Sie eine solche Modellkonfiguration aufrufen, indem Sie ihren Namen in Ihren Anforderungen angeben.

Bereitstellungserfassung:

Ein Modellname
Eine Modellversion
Ein Bereitstellungs-/Kapazitätstyp¹
Eine Inhaltsfilterungskonfiguration¹
Eine Ratenbegrenzungskonfiguration¹

¹ Konfigurationen können je nach ausgewähltem Modell variieren.

Eine Azure KI Services-Ressource kann so viele Modellbereitstellungen aufweisen wie benötigt werden, und sie verursachen keine Kosten, es sei denn, Rückschlüsse werden für diese Modelle ausgeführt. Bereitstellungen sind Azure-Ressourcen und unterliegen daher Azure-Richtlinien.

Weitere Informationen zum Erstellen von Bereitstellungen finden Sie unter Hinzufügen und Konfigurieren von Modellbereitstellungen.

Azure KI-Rückschlussendpunkt

Der Azure KI-Rückschlussendpunkt ermöglicht es Kunden, einen einzelnen Endpunkt mit der gleichen Authentifizierung und demselben Schema zu verwenden, um Rückschlüsse für die bereitgestellten Modelle in der Ressource zu generieren. Dieser Endpunkt folgt der Azure KI-Modellinferenz-API, die von allen Modellen im Azure KI-Modellinferenzdienst unterstützt wird. Unterstützt werden die folgenden Modalitäten:

Texteinbettungen
Bildeinbettungen
Chatvervollständigungen

Die Endpunkt-URL und die Anmeldeinformationen werden im Abschnitt Übersicht angezeigt:

Routing

Der Rückschlussendpunkt leitet Anforderungen an eine bestimmte Bereitstellung weiter, indem er den Parameter name innerhalb der Anforderung mit dem Namen der Bereitstellung abgleicht. Dies bedeutet, dass Bereitstellungen unter bestimmten Konfigurationen als Alias eines bestimmten Modells funktionieren. Diese Flexibilität ermöglicht es Ihnen, ein bestimmtes Modell mehrmals im Dienst bereitzustellen, aber bei Bedarf unter verschiedenen Konfigurationen.

Wenn Sie z. B. eine Bereitstellung mit dem Namen Mistral-large erstellen, dann kann diese Bereitstellung aufgerufen werden als:

Installieren Sie das Paket azure-ai-inference mit Ihrem Paket-Manager, z. B. pip:

pip install azure-ai-inference>=1.0.0b5

Warnung

Azure KI Services-Ressource erfordert die Version azure-ai-inference>=1.0.0b5 für Python.

Anschließend können Sie das Paket verwenden, um das Modell zu nutzen. Das folgende Beispiel zeigt, wie Sie einen Client erstellen, um Chatvervollständigungen zu nutzen:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Erkunden Sie unsere Beispiele,und lesen Sie die API-Referenzdokumentation für die ersten Schritte.

Installieren Sie das Paket @azure-rest/ai-inference mithilfe von npm:

npm install @azure-rest/ai-inference

Anschließend können Sie das Paket verwenden, um das Modell zu nutzen. Das folgende Beispiel zeigt, wie Sie einen Client erstellen, um Chatvervollständigungen zu nutzen:

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    "https://<resource>.services.ai.azure.com/models", 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

Erkunden Sie unsere Beispiele,und lesen Sie die API-Referenzdokumentation für die ersten Schritte.

Installieren Sie die Azure KI-Rückschlussbibliothek mit dem folgenden Befehl:

dotnet add package Azure.AI.Inference --prerelease

Importieren Sie die folgenden Namespaces:

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

Anschließend können Sie das Paket verwenden, um das Modell zu nutzen. Das folgende Beispiel zeigt, wie Sie einen Client erstellen, um Chatvervollständigungen zu nutzen:

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri("https://<resource>.services.ai.azure.com/models"),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

Erkunden Sie unsere Beispiele,und lesen Sie die API-Referenzdokumentation für die ersten Schritte.

Fügen Sie Ihrem Projekt das Paket hinzu:

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

Anschließend können Sie das Paket verwenden, um das Modell zu nutzen. Das folgende Beispiel zeigt, wie Sie einen Client erstellen, um Chatvervollständigungen zu nutzen:

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

Erkunden Sie unsere Beispiele,und lesen Sie die API-Referenzdokumentation für die ersten Schritte.

Im Referenzabschnitt finden Sie Informationen zum API-Entwurf und zu den verfügbaren Parametern. Beispiel: Im Referenzabschnitt für Chatvervollständigungen wird erläutert, wie Sie die Route /chat/completions zum Generieren von Vorhersagen basierend auf Anweisungen im Chatformat verwenden. Beachten Sie, dass der Pfad /models in den Stamm der URL eingeschlossen ist:

Anfordern

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletions chatCompletions = client.complete(new ChatCompletionsOptions(chatMessages));

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

Anforderung

POST https://<resource>.services.ai.azure.com/models/chat/completions?api-version=2024-05-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

Tipp

Beim Bereitstellungsrouting wird die Groß-/Kleinschreibung nicht beachtet.

SDKs

Der Azure KI-Modellinferenzendpunkt wird von mehreren SDKs (einschließlich Azure KI-Inferenz-SDK, Azure AI Foundry SDK und Azure OpenAI-SDK) unterstützt, die in mehreren Sprachen verfügbar sind. Mehrere Integrationen werden auch in beliebten Frameworks wie LangChain, LangGraph, Llama-Index, Semantic Kernel und AG2 unterstützt. Weitere Informationen finden Sie unter Unterstützte Programmiersprachen und SDKs.

Azure OpenAI-Rückschlussendpunkt

Azure OpenAI-Modelle, die in KI-Diensten bereitgestellt wurden, unterstützen auch die Azure OpenAI-API. Diese API macht die vollständigen Funktionen von OpenAI-Modellen verfügbar und unterstützt zusätzliche Features wie Assistenten, Threads, Dateien und Batchrückschluss.

Azure OpenAI-Inferenzendpunkte funktionieren auf Bereitstellungsebene und verfügen über eine eigene URL, die jedem von ihnen zugeordnet ist. Es kann jedoch derselbe Authentifizierungsmechanismus verwendet werden, um sie zu nutzen. Weitere Informationen finden Sie auf der Referenzseite für die Azure OpenAI-API

Jede Bereitstellung verfügt über eine URL, welche die Verkettung der Azure OpenAI-Basis-URL und der Route /deployments/<model-deployment-name> ist.

Wichtig

Es gibt keinen Routingmechanismus für den Azure OpenAI-Endpunkt, da jede URL exklusiv für die jeweilige Modellbereitstellung ist.

SDKs

Der Azure OpenAI-Endpunkt wird vom OpenAI-SDK (AzureOpenAI-Klasse) und von Azure OpenAI-SDKs unterstützt, die in mehreren Sprachen verfügbar sind. Ausführliche Informationen finden Sie unter Unterstützte Programmiersprachen für Modelle im Azure KI-Modellinferenzdienst.

Teilen über

Modellinferenzendpunkt in Azure KI Services

Bereitstellungen

Azure KI-Rückschlussendpunkt

Routing

SDKs

Azure OpenAI-Rückschlussendpunkt

SDKs

Nächste Schritte

Feedback

Zusätzliche Ressourcen