Verwenden des Azure KI-Modellinferenzendpunkts

Artikel
11/05/2024

Der Azure KI-Rückschlussdienst in Azure KI Services ermöglicht es Kunden, die leistungsstärksten Modelle von führenden Modellanbietern mit einem einzigen Endpunkt und Anmeldeinformationen zu nutzen. Dies bedeutet, dass Sie zwischen Modellen wechseln und diese aus Ihrer Anwendung nutzen können, ohne eine einzelne Codezeile zu ändern.

In diesem Artikel wird erläutert, wie Modelle innerhalb des Diensts organisiert werden und wie sie mithilfe des Rückschlussendpunkts aufgerufen werden.

Bereitstellungen

Der Azure KI-Modellinferenzdienst stellt Modelle mithilfe des Bereitstellungskonzepts zur Verfügung. Bereitstellungen sind eine Möglichkeit, einem Modell einen Namen unter bestimmten Konfigurationen zuzuweisen. Dann können Sie eine solche Modellkonfiguration aufrufen, indem Sie ihren Namen in Ihren Anforderungen angeben.

Bereitstellungserfassung:

Ein Modellname
Eine Modellversion
Ein Bereitstellungs-/Kapazitätstyp¹
Eine Inhaltsfilterungskonfiguration¹
Eine Ratenbegrenzungskonfiguration¹

¹ Konfigurationen können je nach dem von Ihnen ausgewähltem Modell variieren.

Eine Azure KI Services-Ressource kann so viele Modellbereitstellungen aufweisen wie benötigt werden, und sie verursachen keine Kosten, es sei denn, Rückschlüsse werden für diese Modelle ausgeführt. Bereitstellungen sind Azure-Ressourcen und unterliegen daher Azure-Richtlinien.

Weitere Informationen zum Erstellen von Bereitstellungen finden Sie unter Hinzufügen und Konfigurieren von Modellbereitstellungen.

Azure KI-Rückschlussendpunkt

Der Azure KI-Rückschlussendpunkt ermöglicht es Kunden, einen einzelnen Endpunkt mit der gleichen Authentifizierung und demselben Schema zu verwenden, um Rückschlüsse für die bereitgestellten Modelle in der Ressource zu generieren. Dieser Endpunkt folgt der Azure KI-Modellinferenz-API, die von allen Modellen im Azure K-Modellinferenzdienst unterstützt wird.

Sie können die Endpunkt-URL und die Anmeldeinformationen im Abschnitt Übersicht sehen. Der Endpunkt hat in der Regel das Format https://<resource-name>.services.ai.azure.com/models:

Sie können eine Verbindung mit dem Endpunkt herstellen, indem Sie das Azure KI Rückschluss-SDK verwenden:

Installieren Sie das Paket azure-ai-inference mit Ihrem Paket-Manager, z. B. pip:

pip install azure-ai-inference>=1.0.0b5

Warnung

Azure KI Services-Ressource erfordert die Version azure-ai-inference>=1.0.0b5 für Python.

Anschließend können Sie das Paket verwenden, um das Modell zu nutzen. Das folgende Beispiel zeigt, wie Sie einen Client erstellen, um Chatvervollständigungen zu nutzen:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

client = ChatCompletionsClient(
    endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Erkunden Sie unsere Beispiele,und lesen Sie die API-Referenzdokumentation für die ersten Schritte.

Installieren Sie das Paket @azure-rest/ai-inference mithilfe von npm:

npm install @azure-rest/ai-inference

Anschließend können Sie das Paket verwenden, um das Modell zu nutzen. Das folgende Beispiel zeigt, wie Sie einen Client erstellen, um Chatvervollständigungen zu nutzen:

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    process.env.AZUREAI_ENDPOINT_URL, 
    new AzureKeyCredential(process.env.AZUREAI_ENDPOINT_KEY)
);

Erkunden Sie unsere Beispiele,und lesen Sie die API-Referenzdokumentation für die ersten Schritte.

Installieren Sie die Azure KI-Rückschlussbibliothek mit dem folgenden Befehl:

dotnet add package Azure.AI.Inference --prerelease

Importieren Sie die folgenden Namespaces:

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

Anschließend können Sie das Paket verwenden, um das Modell zu nutzen. Das folgende Beispiel zeigt, wie Sie einen Client erstellen, um Chatvervollständigungen zu nutzen:

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri(Environment.GetEnvironmentVariable("AZURE_INFERENCE_ENDPOINT")),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

Erkunden Sie unsere Beispiele,und lesen Sie die API-Referenzdokumentation für die ersten Schritte.

Fügen Sie Ihrem Projekt das Paket hinzu:

<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-ai-inference</artifactId>
    <version>1.0.0-beta.1</version>
</dependency>

Anschließend können Sie das Paket verwenden, um das Modell zu nutzen. Das folgende Beispiel zeigt, wie Sie einen Client erstellen, um Chatvervollständigungen zu nutzen:

ChatCompletionsClient client = new ChatCompletionsClientBuilder()
    .credential(new AzureKeyCredential("{key}"))
    .endpoint("{endpoint}")
    .buildClient();

Erkunden Sie unsere Beispiele,und lesen Sie die API-Referenzdokumentation für die ersten Schritte.

Im Referenzabschnitt finden Sie Informationen zum API-Entwurf und zu den verfügbaren Parametern. Beispiel: Im Referenzabschnitt für Chatvervollständigungen wird erläutert, wie Sie die Route /chat/completions zum Generieren von Vorhersagen basierend auf Anweisungen im Chatformat verwenden. Beachten Sie, dass der Pfad /models in den Stamm der URL eingeschlossen ist:

Anforderung

POST models/chat/completions?api-version=2024-04-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

Weitere Codebeispiele und Ressourcen finden Sie unter Unterstützte Sprachen und SDKs.

Routing

Der Rückschlussendpunkt leitet Anforderungen an eine bestimmte Bereitstellung weiter, indem er den Parameter name innerhalb der Anforderung mit dem Namen der Bereitstellung abgleicht. Dies bedeutet, dass Bereitstellungen unter bestimmten Konfigurationen als Alias eines bestimmten Modells funktionieren. Diese Flexibilität ermöglicht es Ihnen, ein bestimmtes Modell mehrmals im Dienst bereitzustellen, aber bei Bedarf unter verschiedenen Konfigurationen.

Wenn Sie z. B. eine Bereitstellung mit dem Namen Mistral-large erstellen, dann kann diese Bereitstellung aufgerufen werden als:

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "Explain Riemann's conjecture in 1 paragraph" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        model: "mistral-large"
    }
});

console.log(response.choices[0].message.content)

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph")
    },
    Model = "mistral-large"
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Choices[0].Message.Content}");

List<ChatRequestMessage> chatMessages = new ArrayList<>();
chatMessages.add(new ChatRequestSystemMessage("You are a helpful assistant"));
chatMessages.add(new ChatRequestUserMessage("Explain Riemann's conjecture in 1 paragraph"));

ChatCompletionsOptions options = new ChatCompletionsOptions(chatMessages);
options.setModel("Mistral-large");

ChatCompletions response = client.complete(options);

for (ChatChoice choice : chatCompletions.getChoices()) {
    ChatResponseMessage message = choice.getMessage();
    System.out.println("Response:" + message.getContent());
}

Anforderung

POST models/chat/completions?api-version=2024-04-01-preview
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant"
        },
        {
            "role": "user",
            "content": "Explain Riemann's conjecture in 1 paragraph"
        }
    ],
    "model": "mistral-large"
}

Tipp

Beim Bereitstellungsrouting wird die Groß-/Kleinschreibung nicht beachtet.

Unterstützte Sprachen und SDKs

Alle im Azure KI-Modellinferenzdienst bereitgestellten Modelle unterstützen die Azure AI-Modellinferenz-API und die zugehörige Familie von SDKs, die in den folgenden Sprachen verfügbar sind:

Sprache	Dokumentation	Paket	Beispiele
C#	Referenz	azure-ai-inference (NuGet)	C#-Beispiele
Java	Referenz	azure-ai-inference (Maven)	Java-Beispiele
JavaScript	Referenz	@azure/ai-inference (npm)	JavaScript-Beispiele
Python	Referenz	azure-ai-inference (PyPi)	Python-Beispiele

Azure OpenAI-Rückschlussendpunkt

Azure OpenAI-Modelle unterstützen auch die Azure OpenAI-API. Diese API macht die vollständigen Funktionen von OpenAI-Modellen verfügbar und unterstützt zusätzliche Features wie Assistenten, Threads, Dateien und Batchrückschluss.

Jede OpenAI-Modellbereitstellung verfügt über ihre eigene URL, die mit dieser Bereitstellung unter dem Azure OpenAI-Rückschlussendpunkt verknüpft ist. Es kann jedoch derselbe Authentifizierungsmechanismus verwendet werden, um ihn zu nutzen. URLs liegen in der Regel im Format https://<resource-name>.openai.azure.com/openai/deployments/<model-deployment-name> vor. Weitere Informationen finden Sie auf der Referenzseite für die Azure OpenAI-API

Jede Bereitstellung verfügt über eine URL, welche die Verkettung der Azure OpenAI-Basis-URL und der Route /deployments/<model-deployment-name> ist.

Wichtig

Es gibt keinen Routingmechanismus für den Azure OpenAI-Endpunkt, da jede URL für jede Modellbereitstellung exklusiv ist.

Unterstützte Sprachen und SDKs

Der Azure OpenAI-Endpunkt wird vom OpenAI-SDK (AzureOpenAI-Klasse) und von Azure OpenAI-SDKs unterstützt, die in mehreren Sprachen verfügbar sind:

Sprache	Quellcode	Paket	Beispiele
C#	Quellcode	Azure.AI.OpenAI (NuGet)	C#-Beispiele
Go	Quellcode	azopenai (Go)	Go-Beispiele
Java	Quellcode	azure-ai-openai (Maven)	Java-Beispiele
JavaScript	Quellcode	@azure/openai (npm)	JavaScript-Beispiele
Python	Quellcode	openai (PyPi)	Python-Beispiele

Nächste Schritte

Bereitstellungstypen

Freigeben über

Verwenden des Azure KI-Modellinferenzendpunkts

Bereitstellungen

Azure KI-Rückschlussendpunkt

Routing

Unterstützte Sprachen und SDKs

Azure OpenAI-Rückschlussendpunkt

Unterstützte Sprachen und SDKs

Nächste Schritte

Feedback

Zusätzliche Ressourcen