Obter respostas armazenadas em cache de solicitações de API de modelo de linguagem grande
APLICA-SE A: todas as camadas do Gerenciamento de API
Use a política llm-semantic-cache-lookup
para realizar a pesquisa de cache de respostas às solicitações da API de LLM (modelo de linguagem grande) de um cache externo configurado, com base na proximidade de vetor do prompt para solicitações anteriores e um limite de pontuação de similaridade especificado. O cache das respostas reduz os requisitos de largura de banda e processamento impostos sobre a API de LLM de back-end e reduz a latência percebida pelos consumidores da API.
Observação
- Essa política precisa ter uma política Armazenar respostas em cache às solicitações da API de modelo de linguagem grande correspondente.
- Para ver os pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar o cache semântico das APIs do OpenAI do Azure no Gerenciamento de API do Azure.
- Atualmente, essa política está em versão prévia.
Observação
Defina os elementos da política e os elementos filho na ordem fornecida na declaração da política. Saiba mais sobre como definir e editar as políticas de Gerenciamento de API.
Modelos com suporte
Use a política com APIs de LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência do Modelo de IA do Azure.
Declaração de política
<llm-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>
Atributos
Atributo | Descrição | Obrigatório | Padrão |
---|---|---|---|
score-threshold | O limite de pontuação de similaridade usado para determinar se deve retornar uma resposta armazenada em cache a um prompt. O valor é um número decimal entre 0,0 e 1,0. Saiba mais. | Yes | N/D |
embeddings-backend-id | ID de back-end para a chamada à API de incorporações do OpenAI. | Yes | N/D |
ignore-system-messages | Booliano. Se definido como true , remove as mensagens do sistema de um prompt de conclusão de chat GPT antes de avaliar a similaridade de cache. |
Não | false |
max-message-count | Se especificado, o número de mensagens de diálogo restantes depois de ignorar o armazenamento em cache. | Não | N/D |
Elementos
Nome | Descrição | Obrigatório |
---|---|---|
vary-by | Uma expressão personalizada determinada em runtime cujo valor particiona o cache. Se vários elementos vary-by forem adicionados, os valores são concatenados para criar uma combinação exclusiva. |
Não |
Uso
- Seções de política: de entrada
- Escopos de política: global, produto, API, operação
- Gateways: clássico, v2, consumo
Observações de uso
- Essa política só pode ser usada uma vez em uma seção de política.
Exemplos
Exemplo com a política llm-semantic-cache-store correspondente
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Políticas relacionadas
Conteúdo relacionado
Para obter mais informações sobre como trabalhar com políticas, consulte:
- Tutorial: Transformar e proteger sua API
- Referência de Política para uma lista completa das instruções de política e suas configurações
- Expressões de política
- Definir ou editar políticas
- Reutilizar configurações de política
- Repositório de snippets de política
- Kit de ferramentas de políticas do Gerenciamento de API do Azure
- Criar políticas usando o Microsoft Copilot no Azure