Uzyskiwanie buforowanych odpowiedzi dla dużych żądań interfejsu API modelu językowego
DOTYCZY: Wszystkie warstwy usługi API Management
llm-semantic-cache-lookup
Użyj zasad, aby wykonać wyszukiwanie w pamięci podręcznej odpowiedzi na żądania interfejsu API dużego modelu językowego (LLM) ze skonfigurowanej zewnętrznej pamięci podręcznej na podstawie wektorowej odległości monitu do poprzednich żądań i określonego progu oceny podobieństwa. Buforowanie odpowiedzi zmniejsza wymagania dotyczące przepustowości i przetwarzania nałożone na interfejs API LLM zaplecza i zmniejsza opóźnienie postrzegane przez użytkowników interfejsu API.
Uwaga
- Te zasady muszą mieć odpowiednie odpowiedzi pamięci podręcznej na zasady żądań interfejsu API modelu języka.
- Aby zapoznać się z wymaganiami wstępnymi i krokami dotyczącymi włączania buforowania semantycznego, zobacz Włączanie buforowania semantycznego dla interfejsów API usługi Azure OpenAI w usłudze Azure API Management.
- Obecnie te zasady są dostępne w wersji zapoznawczej.
Uwaga
Ustaw elementy zasad i elementy podrzędne w kolejności podanej w instrukcji zasad. Dowiedz się więcej na temat ustawiania lub edytowania zasad usługi API Management.
Obsługiwane modele
Użyj zasad z interfejsami API LLM dodanymi do usługi Azure API Management, które są dostępne za pośrednictwem interfejsu API wnioskowania modelu AI platformy Azure.
Instrukcja zasad
<llm-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>
Atrybuty
Atrybut | opis | Wymagani | Wartość domyślna |
---|---|---|---|
próg oceny | Próg oceny podobieństwa używany do określania, czy zwracać buforowana odpowiedź na monit. Wartość jest wartością dziesiętną z zakresu od 0,0 do 1,0. Dowiedz się więcej. | Tak | Nie dotyczy |
embeddings-backend-id | Identyfikator zaplecza dla wywołania interfejsu API osadzania interfejsu OpenAI. | Tak | Nie dotyczy |
ignoruj komunikaty systemowe | Wartość logiczna. Jeśli ustawiono wartość true , usuwa komunikaty systemowe z monitu ukończenia czatu GPT przed oceną podobieństwa pamięci podręcznej. |
Nie. | fałsz |
max-message-count | Jeśli zostanie określona, liczba pozostałych komunikatów dialogowych, po których buforowanie jest pomijane. | Nie. | Nie dotyczy |
Elementy
Nazwa/nazwisko | opis | Wymagania |
---|---|---|
vary-by | Wyrażenie niestandardowe określone w czasie wykonywania, którego buforowanie partycji wartości. W przypadku dodania wielu vary-by elementów wartości są łączone w celu utworzenia unikatowej kombinacji. |
Nie. |
Użycie
- Sekcje zasad: ruch przychodzący
- Zakresy zasad: globalny, produkt, interfejs API, operacja
- Bramy: klasyczne, v2, zużycie
Uwagi dotyczące użycia
- Te zasady można użyć tylko raz w sekcji zasad.
Przykłady
Przykład z odpowiednimi zasadami llm-semantic-cache-store
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Powiązane zasady
Powiązana zawartość
Aby uzyskać więcej informacji na temat pracy z zasadami, zobacz:
- Samouczek: przekształcanie i ochrona interfejsu API
- Dokumentacja zasad dla pełnej listy instrukcji zasad i ich ustawień
- Wyrażenia zasad
- Ustawianie lub edytowanie zasad
- Ponowne używanie konfiguracji zasad
- Repozytorium fragmentów zasad
- Tworzenie zasad przy użyciu rozwiązania Microsoft Copilot na platformie Azure