Získání odpovědí rozhraní API pro velké jazykové modely v mezipaměti
PLATÍ PRO: Všechny úrovně služby API Management
llm-semantic-cache-lookup
Pomocí zásad můžete provádět vyhledávání odpovědí na požadavky rozhraní LLM (Large Language Model) API z nakonfigurované externí mezipaměti na základě vektorové blízkosti výzvy k předchozím požadavkům a zadané prahové hodnoty skóre podobnosti. Ukládání odpovědí do mezipaměti snižuje požadavky na šířku pásma a zpracování způsobené back-endovým rozhraním LLM API a snižuje latenci vnímanou příjemci rozhraní API.
Poznámka:
- Tato zásada musí mít odpovídající odpovědi mezipaměti na zásady požadavků rozhraní API pro velký jazykový model.
- Požadavky a kroky pro povolení sémantické mezipaměti najdete v tématu Povolení sémantické mezipaměti pro rozhraní API Azure OpenAI ve službě Azure API Management.
- V současné době je tato zásada ve verzi Preview.
Poznámka:
Nastavte prvky zásad a podřízené prvky v pořadí uvedeném v prohlášení o zásadách. Přečtěte si další informace o tom, jak nastavit nebo upravit zásady služby API Management.
Podporované modely
Použijte zásadu s rozhraními LLM API přidanými do služby Azure API Management, které jsou dostupné prostřednictvím rozhraní API pro odvozování modelů Azure AI.
Prohlášení o zásadách
<llm-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>
Atributy
Atribut | Popis | Požaduje se | Výchozí |
---|---|---|---|
prahová hodnota skóre | Prahová hodnota skóre podobnosti použitá k určení, jestli se má vrátit odpověď uložená v mezipaměti na výzvu. Hodnota je desítková hodnota mezi 0,0 a 1,0. Další informace. | Yes | – |
embeddings-back-end-id | ID back-endu pro volání rozhraní API pro vkládání OpenAI | Yes | – |
ignore-system-messages | Logický. Pokud je nastavená hodnota true , odebere systémové zprávy z výzvy k dokončení chatu GPT před posouzením podobnosti mezipaměti. |
No | false (nepravda) |
max-message-count | Pokud je zadáno, počet zbývajících dialogových zpráv, po kterých se přeskočí ukládání do mezipaměti. | No | – |
Elementy
Název | Popis | Povinní účastníci |
---|---|---|
vary-by | Vlastní výraz určený za běhu, jehož hodnoty se ukládají do mezipaměti. Pokud se přidá více vary-by prvků, hodnoty se zřetědí a vytvoří jedinečnou kombinaci. |
No |
Využití
- Oddíly zásad: příchozí
- Obory zásad: globální, produkt, rozhraní API, operace
- Brány: Classic, v2, consumption
Poznámky k využití
- Tuto zásadu je možné v oddílu zásad použít jenom jednou.
Příklady
Příklad s odpovídajícími zásadami llm-smantic-cache-store
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Související zásady
Související obsah
Další informace o práci se zásadami najdete v tématech:
- Kurz: Transformace a ochrana rozhraní API
- Referenční informace o zásadách pro úplný seznam prohlášení o zásadách a jejich nastavení
- Výrazy zásad
- Nastavení nebo úprava zásad
- Opakované použití konfigurací zásad
- Úložiště fragmentů zásad
- Sada nástrojů zásad služby Azure API Management
- Vytváření zásad pomocí Microsoft Copilotu v Azure