Uzyskiwanie buforowanych odpowiedzi żądań interfejsu API usługi Azure OpenAI

Artykuł
02/04/2025

DOTYCZY: Wszystkie warstwy usługi API Management

azure-openai-semantic-cache-lookup Użyj zasad, aby wykonać wyszukiwanie w pamięci podręcznej odpowiedzi odpowiedzi do interfejsu API uzupełniania czatu usługi Azure OpenAI i żądań interfejsu API uzupełniania ze skonfigurowanej zewnętrznej pamięci podręcznej na podstawie wektora zbliżenia monitu do poprzednich żądań i określonego progu oceny podobieństwa. Buforowanie odpowiedzi zmniejsza wymagania dotyczące przepustowości i przetwarzania nałożone na interfejs API usługi Azure OpenAI zaplecza i zmniejsza opóźnienie postrzegane przez użytkowników interfejsu API.

Uwaga

Te zasady muszą mieć odpowiednie odpowiedzi pamięci podręcznej na zasady żądań interfejsu API usługi Azure OpenAI.
Aby zapoznać się z wymaganiami wstępnymi i krokami dotyczącymi włączania buforowania semantycznego, zobacz Włączanie buforowania semantycznego dla interfejsów API usługi Azure OpenAI w usłudze Azure API Management.
Obecnie te zasady są dostępne w wersji zapoznawczej.

Uwaga

Ustaw elementy zasad i elementy podrzędne w kolejności podanej w instrukcji zasad. Dowiedz się więcej na temat ustawiania lub edytowania zasad usługi API Management.

Obsługiwane modele usługi Azure OpenAI Service

Zasady są używane z interfejsami API dodanymi do usługi API Management z poziomu usługi Azure OpenAI Service następujących typów:

Typ API	Obsługiwane modele
Uzupełnianie czatu	gpt-3.5 gpt-4
Zakończenie	gpt-3.5-turbo-poinstruowanie
Osadzanie	osadzanie tekstu —3 — duże osadzanie tekstu — 3 małe text-embedding-ada-002

Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service.

Instrukcja zasad

<azure-openai-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

Atrybuty

Atrybut	opis	Wymagani	Wartość domyślna
próg oceny	Próg oceny podobieństwa używany do określania, czy zwracać buforowana odpowiedź na monit. Wartość jest wartością dziesiętną z zakresu od 0,0 do 1,0. Dowiedz się więcej.	Tak	Nie dotyczy
embeddings-backend-id	Identyfikator zaplecza dla wywołania interfejsu API osadzania interfejsu OpenAI.	Tak	Nie dotyczy
embeddings-backend-auth	Uwierzytelnianie używane na potrzeby zaplecza interfejsu API osadzania usługi Azure OpenAI.	Tak. Musi być ustawiona wartość `system-assigned`.	Nie dotyczy
ignoruj komunikaty systemowe	Wartość logiczna. Jeśli ustawiono wartość `true`, usuwa komunikaty systemowe z monitu ukończenia czatu GPT przed oceną podobieństwa pamięci podręcznej.	Nie.	fałsz
max-message-count	Jeśli zostanie określona, liczba pozostałych komunikatów dialogowych, po których buforowanie jest pomijane.	Nie.	Nie dotyczy

Elementy

Nazwa/nazwisko	opis	Wymagania
vary-by	Wyrażenie niestandardowe określone w czasie wykonywania, którego buforowanie partycji wartości. W przypadku dodania wielu `vary-by` elementów wartości są łączone w celu utworzenia unikatowej kombinacji.	Nie.

Użycie

Sekcje zasad: ruch przychodzący
Zakresy zasad: globalny, produkt, interfejs API, operacja
Bramy: klasyczne, v2, zużycie

Uwagi dotyczące użycia

Te zasady można użyć tylko raz w sekcji zasad.

Przykłady

Przykład z odpowiednimi zasadami azure-openai-semantic-cache-store

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Aby uzyskać więcej informacji na temat pracy z zasadami, zobacz:

Samouczek: przekształcanie i ochrona interfejsu API
Dokumentacja zasad dla pełnej listy instrukcji zasad i ich ustawień
Wyrażenia zasad
Ustawianie lub edytowanie zasad
Ponowne używanie konfiguracji zasad
Repozytorium fragmentów zasad
Zestaw narzędzi zasad usługi Azure API Management
Tworzenie zasad przy użyciu rozwiązania Microsoft Copilot na platformie Azure

Udostępnij za pośrednictwem

Uzyskiwanie buforowanych odpowiedzi żądań interfejsu API usługi Azure OpenAI

Obsługiwane modele usługi Azure OpenAI Service

Instrukcja zasad

Atrybuty

Elementy

Użycie

Uwagi dotyczące użycia

Przykłady

Przykład z odpowiednimi zasadami azure-openai-semantic-cache-store

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Uzyskiwanie buforowanych odpowiedzi żądań interfejsu API usługi Azure OpenAI

Obsługiwane modele usługi Azure OpenAI Service

Instrukcja zasad

Atrybuty

Elementy

Użycie

Uwagi dotyczące użycia

Przykłady

Przykład z odpowiednimi zasadami azure-openai-semantic-cache-store

Powiązane zasady

Powiązana zawartość

Opinia

Dodatkowe zasoby