Respostas de cache para solicitações de API de modelo de linguagem grande
APLICA-SE A: todas as camadas do Gerenciamento de API
A política llm-semantic-cache-store
armazena em cache as respostas às solicitações da API de conclusão do chat e da API de conclusão em um cache externo configurado. O cache das respostas reduz os requisitos de largura de banda e processamento impostos à API do OpenAI do Azure de back-end e diminui a latência percebida pelos consumidores da API.
Observação
- Essa política precisa ter uma política correspondente de Obter respostas em cache para as solicitações da API do modelo de linguagem grande.
- Para ver os pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar o cache semântico das APIs do OpenAI do Azure no Gerenciamento de API do Azure.
- Atualmente, essa política está em versão prévia.
Observação
Defina os elementos da política e os elementos filho na ordem fornecida na declaração da política. Saiba mais sobre como definir e editar as políticas de Gerenciamento de API.
Modelos com suporte
Use a política com APIs de LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência do Modelo de IA do Azure.
Declaração de política
<llm-semantic-cache-store duration="seconds"/>
Atributos
Atributo | Descrição | Obrigatório | Padrão |
---|---|---|---|
duration | Vida útil das entradas armazenadas em cache, especificada em segundos. Expressões de política são permitidas. | Sim | N/D |
Uso
- Seções de política: saída
- Escopos de política: global, produto, API, operação
- Gateways: clássico, v2, consumo
Observações de uso
- Essa política só pode ser usada uma vez em uma seção de política.
- Se a pesquisa de cache falhar, a chamada à API que usa a operação relacionada ao cache não gerará um erro e a operação de cache será concluída com sucesso.
Exemplos
Exemplo com a política llm-semantic-cache-lookup correspondente
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Políticas relacionadas
Conteúdo relacionado
Para obter mais informações sobre como trabalhar com políticas, consulte:
- Tutorial: Transformar e proteger sua API
- Referência de Política para uma lista completa das instruções de política e suas configurações
- Expressões de política
- Definir ou editar políticas
- Reutilizar configurações de política
- Repositório de snippets de política
- Criar políticas usando o Microsoft Copilot no Azure