Obter respostas armazenadas em cache de solicitações de API do OpenAI do Azure
APLICA-SE A: todas as camadas do Gerenciamento de API
Use a política azure-openai-semantic-cache-lookup
para realizar pesquisa de cache de respostas para a API de Conclusão de Chat do OpenAI do Azure e solicitações de API de Conclusão de um cache externo configurado, com base na proximidade de vetor do prompt para solicitações anteriores e um limite de pontuação de similaridade especificado. O cache das respostas reduz os requisitos de largura de banda e processamento impostos à API do OpenAI do Azure de back-end e diminui a latência percebida pelos consumidores da API.
Observação
- Essa política deve ter uma política correspondente de Respostas em cache para as solicitações da API do OpenAI do Azure.
- Para ver os pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar o cache semântico das APIs do OpenAI do Azure no Gerenciamento de API do Azure.
- Atualmente, essa política está em versão prévia.
Observação
Defina os elementos da política e os elementos filho na ordem fornecida na declaração da política. Saiba mais sobre como definir e editar as políticas de Gerenciamento de API.
Modelos de Serviço OpenAI do Azure com suporte
A política é usada com APIs adicionadas ao Gerenciamento de API do Serviço OpenAI do Azure dos seguintes tipos:
Tipo de API | Modelos com suporte |
---|---|
Conclusão do chat | gpt-3.5 gpt-4 |
Completion | gpt-3.5-turbo-instruct |
Incorporações | text-embedding-3-large text-embedding-3-small text-embedding-ada-002 |
Para obter mais informações, consulte Modelos do Serviço OpenAI do Azure.
Declaração de política
<azure-openai-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>
Atributos
Atributo | Descrição | Obrigatório | Padrão |
---|---|---|---|
score-threshold | O limite de pontuação de similaridade usado para determinar se deve retornar uma resposta armazenada em cache a um prompt. O valor é um número decimal entre 0,0 e 1,0. Saiba mais. | Yes | N/D |
embeddings-backend-id | ID de back-end para a chamada à API de incorporações do OpenAI. | Yes | N/D |
ignore-system-messages | Booliano. Se definido como true , remove as mensagens do sistema de um prompt de conclusão de chat GPT antes de avaliar a similaridade de cache. |
Não | false |
max-message-count | Se especificado, o número de mensagens de diálogo restantes depois de ignorar o armazenamento em cache. | Não | N/D |
Elementos
Nome | Descrição | Obrigatório |
---|---|---|
vary-by | Uma expressão personalizada determinada em runtime cujo valor particiona o cache. Se vários elementos vary-by forem adicionados, os valores são concatenados para criar uma combinação exclusiva. |
Não |
Uso
- Seções de política: de entrada
- Escopos de política: global, produto, API, operação
- Gateways: clássico, v2, consumo
Observações de uso
- Essa política só pode ser usada uma vez em uma seção de política.
Exemplos
Exemplo com a política correspondente azure-openai-semantic-cache-store
<policies>
<inbound>
<base />
<azure-openai-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="azure-openai-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
</inbound>
<outbound>
<azure-openai-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Políticas relacionadas
Conteúdo relacionado
Para obter mais informações sobre como trabalhar com políticas, consulte:
- Tutorial: Transformar e proteger sua API
- Referência de Política para uma lista completa das instruções de política e suas configurações
- Expressões de política
- Definir ou editar políticas
- Reutilizar configurações de política
- Repositório de snippets de política
- Kit de ferramentas de políticas do Gerenciamento de API do Azure
- Criar políticas usando o Microsoft Copilot no Azure