Buforowanie odpowiedzi do dużych żądań interfejsu API modelu językowego

Artykuł
12/13/2024

DOTYCZY: Wszystkie warstwy usługi API Management

Zasady llm-semantic-cache-store buforuje odpowiedzi na interfejs API uzupełniania czatu i żądania interfejsu API uzupełniania do skonfigurowanej zewnętrznej pamięci podręcznej. Buforowanie odpowiedzi zmniejsza wymagania dotyczące przepustowości i przetwarzania nałożone na interfejs API usługi Azure OpenAI zaplecza i zmniejsza opóźnienie postrzegane przez użytkowników interfejsu API.

Uwaga

Te zasady muszą mieć odpowiednie odpowiedzi Get cached odpowiedzi na zasady żądań interfejsu API modelu języka.
Aby zapoznać się z wymaganiami wstępnymi i krokami dotyczącymi włączania buforowania semantycznego, zobacz Włączanie buforowania semantycznego dla interfejsów API usługi Azure OpenAI w usłudze Azure API Management.
Obecnie te zasady są dostępne w wersji zapoznawczej.

Uwaga

Ustaw elementy zasad i elementy podrzędne w kolejności podanej w instrukcji zasad. Dowiedz się więcej na temat ustawiania lub edytowania zasad usługi API Management.

Obsługiwane modele

Użyj zasad z interfejsami API LLM dodanymi do usługi Azure API Management, które są dostępne za pośrednictwem interfejsu API wnioskowania modelu AI platformy Azure.

Instrukcja zasad

<llm-semantic-cache-store duration="seconds"/>

Atrybuty

Atrybut	opis	Wymagani	Wartość domyślna
czas trwania	Czas wygaśnięcia buforowanych wpisów określonych w sekundach. Wyrażenia zasad są dozwolone.	Tak	Nie dotyczy

Użycie

Sekcje zasad: ruch wychodzący
Zakresy zasad: globalny, produkt, interfejs API, operacja
Bramy: klasyczne, v2, zużycie

Uwagi dotyczące użycia

Te zasady można użyć tylko raz w sekcji zasad.
Jeśli wyszukiwanie pamięci podręcznej nie powiedzie się, wywołanie interfejsu API, które używa operacji związanej z pamięcią podręczną, nie zgłosi błędu, a operacja pamięci podręcznej zakończy się pomyślnie.

Przykłady

Przykład z odpowiednimi zasadami wyszukiwania llm-semantic-cache-lookup

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Aby uzyskać więcej informacji na temat pracy z zasadami, zobacz:

Samouczek: przekształcanie i ochrona interfejsu API
Dokumentacja zasad dla pełnej listy instrukcji zasad i ich ustawień
Wyrażenia zasad
Ustawianie lub edytowanie zasad
Ponowne używanie konfiguracji zasad
Repozytorium fragmentów zasad
Zestaw narzędzi zasad usługi Azure API Management
Tworzenie zasad przy użyciu rozwiązania Microsoft Copilot na platformie Azure

Udostępnij za pośrednictwem

Buforowanie odpowiedzi do dużych żądań interfejsu API modelu językowego

Obsługiwane modele

Instrukcja zasad

Atrybuty

Użycie

Uwagi dotyczące użycia

Przykłady

Przykład z odpowiednimi zasadami wyszukiwania llm-semantic-cache-lookup

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Buforowanie odpowiedzi do dużych żądań interfejsu API modelu językowego

Obsługiwane modele

Instrukcja zasad

Atrybuty

Użycie

Uwagi dotyczące użycia

Przykłady

Przykład z odpowiednimi zasadami wyszukiwania llm-semantic-cache-lookup

Powiązane zasady

Powiązana zawartość

Opinia

Dodatkowe zasoby