Obter respostas em cache de solicitações de API do Azure OpenAI
APLICA-SE A: Todas as camadas de gerenciamento de API
Use a política para executar a azure-openai-semantic-cache-lookup
pesquisa de cache de respostas à API de Conclusão de Chat do Azure OpenAI e às solicitações da API de Conclusão de um cache externo configurado, com base na proximidade vetorial do prompt a solicitações anteriores e em um limite de pontuação de similaridade especificado. O cache de resposta reduz os requisitos de largura de banda e processamento impostos à API OpenAI do Azure de back-end e reduz a latência percebida pelos consumidores de API.
Nota
- Essa política deve ter respostas de cache correspondentes à política de solicitações de API do Azure OpenAI.
- Para obter pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar cache semântico para APIs do Azure OpenAI no Gerenciamento de API do Azure.
- Atualmente, esta política está em pré-visualização.
Nota
Defina os elementos da política e os elementos filho na ordem fornecida na declaração de política. Saiba mais sobre como definir ou editar políticas de Gerenciamento de API.
Modelos de Serviço OpenAI do Azure suportados
A política é usada com APIs adicionadas ao Gerenciamento de API do Serviço OpenAI do Azure dos seguintes tipos:
Tipo de API | Modelos suportados |
---|---|
Conclusão do chat | GPT-3,5 GPT-4 |
Conclusão | GPT-3.5-Turbo-Instrução |
Incorporações | incorporação de texto-3-grande incorporação de texto-3-pequeno incorporação de texto-ada-002 |
Para obter mais informações, consulte Modelos do Azure OpenAI Service.
Declaração de política
<azure-openai-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>
Atributos
Atributo | Description | Necessário | Predefinição |
---|---|---|---|
limiar-pontuação | Limite de pontuação de similaridade usado para determinar se uma resposta em cache deve retornar a um prompt. O valor é decimal entre 0,0 e 1,0. Mais informações. | Sim | N/A |
incorporações-backend-id | ID de back-end para OpenAI incorpora chamada de API. | Sim | N/A |
ignorar-sistema-mensagens | Booleano. Se definido como true , remove as mensagens do sistema de um prompt de conclusão de bate-papo GPT antes de avaliar a semelhança de cache. |
Não | false |
contagem máxima de mensagens | Se especificado, número de mensagens de diálogo restantes após as quais o cache é ignorado. | No | N/A |
Elementos
Nome | Descrição | Obrigatório |
---|---|---|
variar-por | Uma expressão personalizada determinada em tempo de execução cujo valor particiona o cache. Se vários vary-by elementos forem adicionados, os valores serão concatenados para criar uma combinação exclusiva. |
Não |
Utilização
- Secções políticas: entrada
- Escopos da política: global, produto, API, operação
- Gateways: clássico, v2, consumo
Notas de utilização
- Esta política só pode ser utilizada uma vez numa secção de política.
Exemplos
Exemplo com a política azure-openai-semantic-cache-store correspondente
<policies>
<inbound>
<base />
<azure-openai-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="azure-openai-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
</inbound>
<outbound>
<azure-openai-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Políticas relacionadas
Conteúdos relacionados
Para obter mais informações sobre como trabalhar com políticas, consulte:
- Tutorial: Transforme e proteja sua API
- Referência de política para uma lista completa de declarações de política e suas configurações
- Expressões de política
- Definir ou editar políticas
- Reutilizar configurações de política
- Recompra de trechos de política
- Kit de ferramentas de política de Gerenciamento de API do Azure
- Criar políticas usando o Microsoft Copilot no Azure