Freigeben über


Azure KI-Modellinferenzendpunkt verwenden, um Modelle zu nutzen

Azure KI-Modellinferenz in Azure KI Services ermöglicht es Kunden, die leistungsstärksten Modelle von führenden Modellanbietern mit einem einzigen Endpunkt und Anmeldeinformationen zu nutzen. Dies bedeutet, dass Sie zwischen Modellen wechseln und diese aus Ihrer Anwendung nutzen können, ohne eine einzelne Codezeile zu ändern.

In diesem Artikel wird erläutert, wie Sie den Inferenzendpunkt verwenden, um sie aufzurufen.

Endpunkte

Azure KI Services macht je nach Art der gesuchten Arbeit mehrere Endpunkte verfügbar:

  • Azure KI-Modellinferenzendpunkt
  • Azure OpenAI-Endpunkt

Der Azure KI-Inferenzendpunkt (üblicherweise in der Form https://<resource-name>.services.ai.azure.com/models) ermöglicht es Kunden, einen einzelnen Endpunkt mit der gleichen Authentifizierung und demselben Schema zu verwenden, um Inferenz für die bereitgestellten Modelle in der Ressource zu generieren. Alle Modelle unterstützen diese Funktion. Dieser Endpunkt folgt der Azure KI-Modellinferenz-API.

Für KI-Dienste bereitgestellte Azure OpenAI-Modelle unterstützen die Azure OpenAI-API (üblicherweise in der Form https://<resource-name>.openai.azure.com) ebenfalls. Dieser Endpunkt macht die alle Funktionen von OpenAI-Modellen verfügbar und unterstützt weitere Features wie Assistenten, Threads, Dateien und Batchinferenz.

Weitere Informationen zum Anwenden des Azure OpenAI-Endpunkts finden Sie in der Dokumentation zu Azure OpenAI Service.

Verwenden der Routingfunktion im Azure KI-Modellinferenzendpunkt

Der Rückschlussendpunkt leitet Anforderungen an eine bestimmte Bereitstellung weiter, indem er den Parameter name innerhalb der Anforderung mit dem Namen der Bereitstellung abgleicht. Dies bedeutet, dass Bereitstellungen unter bestimmten Konfigurationen als Alias eines bestimmten Modells funktionieren. Diese Flexibilität ermöglicht es Ihnen, ein bestimmtes Modell mehrmals im Dienst bereitzustellen, aber bei Bedarf unter verschiedenen Konfigurationen.

Eine Abbildung, die zeigt, wie Routing für ein Meta-llama-3.2-8b-instruct-Modell funktioniert, indem dieser Name im Parameter „Modell“ innerhalb der Payloadanforderung angegeben wird.

Wenn Sie z. B. eine Bereitstellung mit dem Namen Mistral-large erstellen, dann kann diese Bereitstellung aufgerufen werden als:

Installieren Sie das Paket azure-ai-inference mit Ihrem Paket-Manager, z. B. pip:

pip install azure-ai-inference>=1.0.0b5

Warnung

Azure KI Services-Ressource erfordert die Version azure-ai-inference>=1.0.0b5 für Python.

Anschließend können Sie das Paket verwenden, um das Modell zu nutzen. Das folgende Beispiel zeigt, wie Sie einen Client erstellen, um Chatvervollständigungen zu nutzen:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Erkunden Sie unsere Beispiele,und lesen Sie die API-Referenzdokumentation für die ersten Schritte.

Für ein Chatmodell können Sie eine Anforderung wie folgt erstellen:

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

Wenn Sie einen Modellnamen angeben, der keiner bestimmten Modellimplementierung entspricht, wird eine Fehlermeldung angezeigt, dass das Modell nicht vorhanden ist. Sie können steuern, welche Modelle für Benutzende verfügbar sind, indem Sie Modellimplementierungen erstellen, wie unter Hinzufügen und Konfigurieren von Modellimplementierungen erläutert.

Einschränkungen

  • Azure OpenAI Batch kann nicht mit dem Azure KI-Modellinferenzendpunkt verwendet werden. Sie müssen die dedizierte Bereitstellungs-URL verwenden, wie unter „Batch-API-Unterstützung“ in der Azure OpenAI-Dokumentation erläutert.
  • Die Echtzeit-API wird im Inferenzendpunkt nicht unterstützt. Verwenden Sie die dedizierte Bereitstellungs-URL.

Nächste Schritte