Hämta cachelagrade svar från API-begäranden för stora språkmodeller
GÄLLER FÖR: Alla API Management-nivåer
llm-semantic-cache-lookup
Använd principen för att utföra cacheuppslagning av svar på LLM-API-begäranden (large language model) från en konfigurerad extern cache, baserat på vektornärheten för uppmaningen till tidigare begäranden och ett angivet tröskelvärde för likhetspoäng. Cachelagring av svar minskar bandbredds- och bearbetningskrav som ställs på LLM-API:et för serverdelen och minskar svarstiden som uppfattas av API-konsumenter.
Kommentar
- Den här principen måste ha motsvarande cachesvar på api-begäranden för stora språkmodeller.
- Krav och steg för att aktivera semantisk cachelagring finns i Aktivera semantisk cachelagring för Azure OpenAI-API:er i Azure API Management.
- För närvarande finns den här principen i förhandsversion.
Kommentar
Ange principens element och underordnade element i den ordning som anges i principbeskrivningen. Läs mer om hur du anger eller redigerar API Management-principer.
Modeller som stöds
Använd principen med LLM-API:er som lagts till i Azure API Management som är tillgängliga via Azure AI Model Inference API.
Principuttryck
<llm-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>
Attribut
Attribut | beskrivning | Obligatoriskt | Standardvärde |
---|---|---|---|
score-threshold | Tröskelvärde för likhetspoäng som används för att avgöra om ett cachelagrat svar ska returneras till en fråga. Värdet är en decimal mellan 0,0 och 1,0. Läs mer. | Ja | Ej tillämpligt |
embeddings-backend-id | Serverdels-ID för OpenAI-inbäddnings-API-anrop. | Ja | Ej tillämpligt |
ignore-system-messages | Boolesk. Om värdet är inställt på true tar du bort systemmeddelanden från en GPT-chattavslutsprompt innan cachelikheten utvärderas. |
Nej | falskt |
max-message-count | Om det anges hoppas antalet återstående dialogmeddelanden efter vilka cachelagring hoppas över. | Nej | Ej tillämpligt |
Element
Name | beskrivning | Obligatoriskt |
---|---|---|
vary-by | Ett anpassat uttryck som bestäms vid körning vars värde partitioner cachelagring. Om flera vary-by element läggs till sammanfogas värden för att skapa en unik kombination. |
Nej |
Förbrukning
- Principavsnitt: inkommande
- Principomfattningar: global, produkt, API, åtgärd
- Gatewayer: klassisk, v2, förbrukning
Användningsanteckningar
- Den här principen kan bara användas en gång i ett principavsnitt.
Exempel
Exempel med motsvarande llm-semantic-cache-store-princip
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Relaterade principer
Relaterat innehåll
Mer information om hur du arbetar med principer finns i:
- Självstudie: Transformera och skydda ditt API
- Principreferens för en fullständig lista över principinstruktioner och deras inställningar
- Principuttryck
- Ange eller redigera principer
- Återanvända principkonfigurationer
- Lagringsplats för principfragment
- Principverktyg för Azure API Management
- Skapa principer med Microsoft Copilot i Azure