Teilen über


Modellinferenzendpunkt in Azure KI Services

Die Azure KI-Modellinferenz in Azure KI Services ermöglicht es Kunden, die leistungsstärksten Modelle von führenden Modellanbietern über einen einzigen Endpunkt mit entsprechenden Anmeldeinformationen zu nutzen. Dies bedeutet, dass Sie zwischen Modellen wechseln und diese aus Ihrer Anwendung nutzen können, ohne eine einzelne Codezeile zu ändern.

In diesem Artikel wird erläutert, wie Modelle innerhalb des Diensts organisiert werden und wie sie mithilfe des Rückschlussendpunkts aufgerufen werden.

Bereitstellungen

Der Azure KI-Modellinferenzdienst stellt Modelle mithilfe des Bereitstellungskonzepts zur Verfügung. Bereitstellungen sind eine Möglichkeit, einem Modell einen Namen unter bestimmten Konfigurationen zuzuweisen. Dann können Sie eine solche Modellkonfiguration aufrufen, indem Sie ihren Namen in Ihren Anforderungen angeben.

Bereitstellungserfassung:

  • Ein Modellname
  • Eine Modellversion
  • Ein Bereitstellungs-/Kapazitätstyp1
  • Eine Inhaltsfilterungskonfiguration1
  • Eine Ratenbegrenzungskonfiguration1

1 Konfigurationen können je nach ausgewähltem Modell variieren.

Eine Azure KI Services-Ressource kann so viele Modellbereitstellungen aufweisen wie benötigt werden, und sie verursachen keine Kosten, es sei denn, Rückschlüsse werden für diese Modelle ausgeführt. Bereitstellungen sind Azure-Ressourcen und unterliegen daher Azure-Richtlinien.

Weitere Informationen zum Erstellen von Bereitstellungen finden Sie unter Hinzufügen und Konfigurieren von Modellbereitstellungen.

Azure KI-Rückschlussendpunkt

Der Azure KI-Rückschlussendpunkt ermöglicht es Kunden, einen einzelnen Endpunkt mit der gleichen Authentifizierung und demselben Schema zu verwenden, um Rückschlüsse für die bereitgestellten Modelle in der Ressource zu generieren. Dieser Endpunkt folgt der Azure KI-Modellinferenz-API, die von allen Modellen im Azure KI-Modellinferenzdienst unterstützt wird. Unterstützt werden die folgenden Modalitäten:

  • Texteinbettungen
  • Bildeinbettungen
  • Chatvervollständigungen

Die Endpunkt-URL und die Anmeldeinformationen werden im Abschnitt Übersicht angezeigt:

Screenshot: Abrufen von URL und Schlüssel, die der Ressource zugeordnet sind

Routing

Der Rückschlussendpunkt leitet Anforderungen an eine bestimmte Bereitstellung weiter, indem er den Parameter name innerhalb der Anforderung mit dem Namen der Bereitstellung abgleicht. Dies bedeutet, dass Bereitstellungen unter bestimmten Konfigurationen als Alias eines bestimmten Modells funktionieren. Diese Flexibilität ermöglicht es Ihnen, ein bestimmtes Modell mehrmals im Dienst bereitzustellen, aber bei Bedarf unter verschiedenen Konfigurationen.

Eine Abbildung, die zeigt, wie Routing für ein Meta-llama-3.2-8b-instruct-Modell funktioniert, indem dieser Name im Parameter „Modell“ innerhalb der Payloadanforderung angegeben wird.

Wenn Sie z. B. eine Bereitstellung mit dem Namen Mistral-large erstellen, dann kann diese Bereitstellung aufgerufen werden als:

Installieren Sie das Paket azure-ai-inference mit Ihrem Paket-Manager, z. B. pip:

pip install azure-ai-inference>=1.0.0b5

Warnung

Azure KI Services-Ressource erfordert die Version azure-ai-inference>=1.0.0b5 für Python.

Anschließend können Sie das Paket verwenden, um das Modell zu nutzen. Das folgende Beispiel zeigt, wie Sie einen Client erstellen, um Chatvervollständigungen zu nutzen:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

model = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
)

Erkunden Sie unsere Beispiele,und lesen Sie die API-Referenzdokumentation für die ersten Schritte.

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

Tipp

Beim Bereitstellungsrouting wird die Groß-/Kleinschreibung nicht beachtet.

SDKs

Der Azure KI-Modellinferenzendpunkt wird von mehreren SDKs (einschließlich Azure KI-Inferenz-SDK, Azure AI Foundry SDK und Azure OpenAI-SDK) unterstützt, die in mehreren Sprachen verfügbar sind. Mehrere Integrationen werden auch in beliebten Frameworks wie LangChain, LangGraph, Llama-Index, Semantic Kernel und AG2 unterstützt. Weitere Informationen finden Sie unter Unterstützte Programmiersprachen und SDKs.

Azure OpenAI-Rückschlussendpunkt

Azure OpenAI-Modelle, die in KI-Diensten bereitgestellt wurden, unterstützen auch die Azure OpenAI-API. Diese API macht die vollständigen Funktionen von OpenAI-Modellen verfügbar und unterstützt zusätzliche Features wie Assistenten, Threads, Dateien und Batchrückschluss.

Azure OpenAI-Inferenzendpunkte funktionieren auf Bereitstellungsebene und verfügen über eine eigene URL, die jedem von ihnen zugeordnet ist. Es kann jedoch derselbe Authentifizierungsmechanismus verwendet werden, um sie zu nutzen. Weitere Informationen finden Sie auf der Referenzseite für die Azure OpenAI-API

Eine Abbildung, die zeigt, wie Azure OpenAI-Bereitstellungen eine einzelne URL für jede Bereitstellung enthalten.

Jede Bereitstellung verfügt über eine URL, welche die Verkettung der Azure OpenAI-Basis-URL und der Route /deployments/<model-deployment-name> ist.

Wichtig

Es gibt keinen Routingmechanismus für den Azure OpenAI-Endpunkt, da jede URL exklusiv für die jeweilige Modellbereitstellung ist.

SDKs

Der Azure OpenAI-Endpunkt wird vom OpenAI-SDK (AzureOpenAI-Klasse) und von Azure OpenAI-SDKs unterstützt, die in mehreren Sprachen verfügbar sind. Ausführliche Informationen finden Sie unter Unterstützte Programmiersprachen für Modelle im Azure KI-Modellinferenzdienst.

Nächste Schritte