Bereitstellen eines Modells auf einem Endpunkt

Abgeschlossen

Wenn Sie eine generative KI-App entwickeln, müssen Sie Sprachmodelle in Ihre Anwendung integrieren. Um ein Sprachmodell verwenden zu können, müssen Sie das Modell bereitstellen. Zunächst befassen wir uns damit, warum Sie ein Modell bereitstellen müssen, und anschließend sehen wir uns an, wie Sie Sprachmodelle in Azure KI Foundry bereitstellen.

Verstehen der Gründe für die Bereitstellung eines Modells

Sprachmodelle sind wie herkömmliche Machine Learning (ML)-Modelle dafür konzipiert, basierend auf einer bestimmten Eingabe eine Ausgabe zu generieren. Um von einem Modell zu profitieren, benötigen Sie eine Lösung, die Eingaben zur Verarbeitung an ein Modell senden und die Ausgabe dann an einer beliebigen Stelle visualisieren kann.

Bei generativen KI-Apps haben Sie eine Chatanwendung, die Eingaben von einem Benutzer erwartet (häufig in Form einer Frage). Sie möchten, dass das Modell diese Eingabe verarbeitet und eine Antwort generiert, die Sie über die Chatanwendung an den Benutzer zurücksenden können. Um ein Sprachmodell zu integrieren, das Eingabedaten verarbeiten und Ausgabedaten generieren kann, muss das Modell auf einem Endpunkt bereitgestellt werden.

Ein Endpunkt ist eine spezifische URL (Uniform Resource Locator), über die auf ein bereitgestelltes Modell oder einen bereitgestellten Dienst zugegriffen werden kann. Er fungiert als Gateway für Benutzer, damit sie ihre Anforderungen an das Modell senden und die Ergebnisse empfangen können. Jede Modellimplementierung verfügt in der Regel über einen eigenen eindeutigen Endpunkt, der es verschiedenen Anwendungen ermöglicht, über eine API (Application Programming Interface, Anwendungsprogrammierschnittstelle) mit dem Modell zu kommunizieren.

Wenn Sie ein Sprachmodell aus dem Modellkatalog mit Azure KI Foundry bereitstellen, erhalten Sie einen Endpunkt, der aus einem Ziel-URI (Uniform Resource Identifier) und einem eindeutigen Schlüssel besteht. Der Ziel-URI für ein bereitgestelltes GPT-3.5-Modell kann beispielsweise wie folgt lauten:

https://ai-aihubdevdemo.openai.azure.com/openai/deployments/gpt-35-turbo/chat/completions?api-version=2023-03-15-preview

Der URI enthält den Namen Ihres KI-Hubs, den Namen des bereitgestellten Modells und Informationen zum Zweck des Modells. Im Beispiel wird das GPT-3.5-Modell für die Chatvervollständigung verwendet.

Um Ihre bereitgestellten Modelle zu schützen, enthält jede Bereitstellung einen Schlüssel. Sie können nur dann Anforderungen an den Ziel-URI senden und von diesem empfangen, wenn Sie auch den Schlüssel für die Authentifizierung angeben.

Um ein bereitgestelltes Modell zu verwenden, führen Sie in der Regel einen API-Aufruf durch. Sie können einen API-Aufruf mit Code wie Python oder C# oder einem Tool wie Azure KI Foundry oder Postman durchführen. Bei einem API-Aufruf wird eine Anforderung mithilfe der API an den Endpunkt des Modells gesendet. Die Anforderung enthält in der Regel die Eingabedaten, die vom Modell verarbeitet werden sollen. Das Modell verarbeitet dann die Daten und sendet eine Antwort mit den Ergebnissen zurück. Auf diese Weise können Sie mit dem bereitgestellten Modell interagieren und seine Funktionen in Ihren Anwendungen nutzen.

Nachdem Sie nun wissen, warum Sie ein Modell bereitstellen, sehen wir uns als Nächstes die Bereitstellungsoptionen in Azure KI Foundry an.

Erstellen eines Sprachmodells mit Azure KI Foundry

Wenn Sie ein Sprachmodell mit Azure KI Foundry bereitstellen, stehen Ihnen je nach gewünschtem Modell mehrere Typen zur Verfügung:

Aktivität Azure OpenAI-Modelle Modelle, die als serverlose APIs bereitgestellt werden (nutzungsbasierte Bezahlung). Modelle, die mit benutzerseitig verwaltetem Compute eingesetzt werden.
Bereitstellen des Modells Nein, die Bereitstellung eines Azure OpenAI-Modells für Ihr Projekt wird Ihnen nicht in Rechnung gestellt. Ja, Ihre Abrechnung erfolgt minimal pro Infrastruktur des Endpunkts. Ja, die Infrastruktur für das Modell wird Ihnen pro Minute in Rechnung gestellt.
Aufrufen des Endpunkts Ja. Ihnen werden basierend auf der Tokennutzung Gebühren in Rechnung gestellt. Ja. Ihnen werden basierend auf der Tokennutzung Gebühren in Rechnung gestellt. Keine.