Abrufen zwischengespeicherter Antworten der API-Anforderungen von Azure OpenAI

Artikel
02/04/2025

GILT FÜR: Alle API Management-Ebenen

Verwenden Sie die Richtlinie azure-openai-semantic-cache-lookup, um die Cachesuche von Antworten auf API-Anforderungen von Azure OpenAI-Chatabschluss und Abschluss-API-Anforderungen aus einem konfigurierten externen Cache durchzuführen, basierend auf der Vektornähe der Eingabeaufforderung zu vorherigen Anforderungen und einem angegebenen Schwellenwert für die Ähnlichkeitsbewertung. Das Zwischenspeichern von Antworten senkt die Bandbreitennutzung und die Prozessoranforderungen auf der Back-End-API von Azure OpenAI und verringert die Latenz für API-Consumer.

Hinweis

Diese Richtlinie muss über eine entsprechende Richtlinie für Cacheantworten auf API-Anforderungen von Azure OpenAI verfügen.
Voraussetzungen und Schritte zum Aktivieren der semantischen Zwischenspeicherung finden Sie unter Aktivieren der semantischen Zwischenspeicherung für Azure OpenAI-APIs in Azure API Management.
Derzeit befindet sich diese Richtlinie in der Vorschau.

Hinweis

Legen Sie die Elemente und untergeordneten Elemente einer Richtlinie in der Reihenfolge fest, die in der Richtlinienanweisung angegeben ist. Erfahren Sie mehr darüber, wie Sie API Management-Richtlinien festlegen oder bearbeiten.

Unterstützte Azure OpenAI Service-Modelle

Die Richtlinie wird mit APIs der folgenden Typen verwendet, die dem API Management aus dem Azure OpenAI Service hinzugefügt werden:

API-Typ	Unterstützte Modelle
Chatvervollständigung	gpt-3.5 gpt-4
Completion	gpt-3.5-turbo-instruct
Einbettungen	text-embedding-3-large text-embedding-3-small text-embedding-ada-002

Weitere Informationen finden Sie unter Azure OpenAI Service-Modelle.

Richtlinienanweisung

<azure-openai-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

Attribute

Attribut	BESCHREIBUNG	Erforderlich	Standard
score-threshold	Der Schwellenwert für die Ähnlichkeitsbewertung, der verwendet wird, um zu bestimmen, ob eine zwischengespeicherte Antwort an eine Eingabeaufforderung zurückgegeben werden soll. Der Wert ist eine Dezimalzahl zwischen 0,0 und 1,0. Weitere Informationen	Ja	N/V
embeddings-backend-id	Back-End-ID für den API-Aufruf der OpenAI-Einbettungen	Ja	N/V
embeddings-backend-auth	Authentifizierung, die für das API-Back-End der Azure OpenAI-Einbettungen verwendet wird	Ja. Muss auf `system-assigned` festgelegt sein.	N/V
ignore-system-messages	Boolesch. Bei Festlegung auf `true` werden Systemnachrichten aus einer GPT-Chatabschlussaufforderung entfernt, bevor die Cache-Ähnlichkeit bewertet wird.	No	false
max-message-count	Wenn angegeben, wird die Anzahl der verbleibenden Dialogfeldnachrichten, nach denen die Zwischenspeicherung übersprungen wird, angegeben.	No	–

Elemente

Name	BESCHREIBUNG	Erforderlich
vary-by	Ein benutzerdefinierter Ausdruck, der zur Runtime bestimmt wird, dessen Wertpartitionen zwischengespeichert werden. Wenn mehrere `vary-by`-Elemente hinzugefügt werden, werden Werte verkettet, um eine eindeutige Kombination zu erstellen.	No

Verwendung

Richtlinienabschnitte: inbound
Richtlinienbereiche: global, product, API, operation
Gateways: classic, v2, consumption

Hinweise zur Verwendung

Diese Richtlinie kann nur einmal in einem Richtlinienabschnitt verwendet werden.

Beispiele

Beispiel mit entsprechender Richtlinie „azure-openai-semantic-cache-store“

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Weitere Informationen zum Arbeiten mit Richtlinien finden Sie hier:

Tutorial: Transformieren und Schützen Ihrer API
Unter Richtlinien für die API-Verwaltung finden Sie eine komplette Liste der Richtlinienanweisungen und der zugehörigen Einstellungen.
Richtlinienausdrücke
Festlegen oder Bearbeiten von Richtlinien
Wiederverwenden von Richtlinienkonfigurationen
Repository für Richtliniencodeausschnitte
Azure API Management-Richtlinientoolkit
Erstellen von Richtlinien mit Microsoft Copilot in Azure

Freigeben über

Abrufen zwischengespeicherter Antworten der API-Anforderungen von Azure OpenAI

Unterstützte Azure OpenAI Service-Modelle

Richtlinienanweisung

Attribute

Elemente

Verwendung

Hinweise zur Verwendung

Beispiele

Beispiel mit entsprechender Richtlinie „azure-openai-semantic-cache-store“

Feedback

Zusätzliche Ressourcen

Freigeben über

Abrufen zwischengespeicherter Antworten der API-Anforderungen von Azure OpenAI

Unterstützte Azure OpenAI Service-Modelle

Richtlinienanweisung

Attribute

Elemente

Verwendung

Hinweise zur Verwendung

Beispiele

Beispiel mit entsprechender Richtlinie „azure-openai-semantic-cache-store“

Verwandte Richtlinien

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen