Obter respostas armazenadas em cache de solicitações de API do OpenAI do Azure

Artigo
02/04/2025

APLICA-SE A: todas as camadas do Gerenciamento de API

Use a política azure-openai-semantic-cache-lookup para realizar pesquisa de cache de respostas para a API de Conclusão de Chat do OpenAI do Azure e solicitações de API de Conclusão de um cache externo configurado, com base na proximidade de vetor do prompt para solicitações anteriores e um limite de pontuação de similaridade especificado. O cache das respostas reduz os requisitos de largura de banda e processamento impostos à API do OpenAI do Azure de back-end e diminui a latência percebida pelos consumidores da API.

Observação

Essa política deve ter uma política correspondente de Respostas em cache para as solicitações da API do OpenAI do Azure.
Para ver os pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar o cache semântico das APIs do OpenAI do Azure no Gerenciamento de API do Azure.
Atualmente, essa política está em versão prévia.

Observação

Defina os elementos da política e os elementos filho na ordem fornecida na declaração da política. Saiba mais sobre como definir e editar as políticas de Gerenciamento de API.

Modelos de Serviço OpenAI do Azure com suporte

A política é usada com APIs adicionadas ao Gerenciamento de API do Serviço OpenAI do Azure dos seguintes tipos:

Tipo de API	Modelos com suporte
Conclusão do chat	gpt-3.5 gpt-4
Completion	gpt-3.5-turbo-instruct
Incorporações	text-embedding-3-large text-embedding-3-small text-embedding-ada-002

Para obter mais informações, consulte Modelos do Serviço OpenAI do Azure.

Declaração de política

<azure-openai-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

Atributos

Atributo	Descrição	Obrigatório	Padrão
score-threshold	O limite de pontuação de similaridade usado para determinar se deve retornar uma resposta armazenada em cache a um prompt. O valor é um número decimal entre 0,0 e 1,0. Saiba mais.	Yes	N/D
embeddings-backend-id	ID de back-end para a chamada à API de incorporações do OpenAI.	Yes	N/D
embeddings-backend-auth	Autenticação usada pelo back-end de API de incorporações do OpenAI.	Sim. Deve ser definido como `system-assigned`.	N/D
ignore-system-messages	Booliano. Se definido como `true`, remove as mensagens do sistema de um prompt de conclusão de chat GPT antes de avaliar a similaridade de cache.	Não	false
max-message-count	Se especificado, o número de mensagens de diálogo restantes depois de ignorar o armazenamento em cache.	Não	N/D

Elementos

Nome	Descrição	Obrigatório
vary-by	Uma expressão personalizada determinada em runtime cujo valor particiona o cache. Se vários elementos `vary-by` forem adicionados, os valores são concatenados para criar uma combinação exclusiva.	Não

Uso

Seções de política: de entrada
Escopos de política: global, produto, API, operação
Gateways: clássico, v2, consumo

Observações de uso

Essa política só pode ser usada uma vez em uma seção de política.

Exemplos

Exemplo com a política correspondente azure-openai-semantic-cache-store

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte:

Tutorial: Transformar e proteger sua API
Referência de Política para uma lista completa das instruções de política e suas configurações
Expressões de política
Definir ou editar políticas
Reutilizar configurações de política
Repositório de snippets de política
Kit de ferramentas de políticas do Gerenciamento de API do Azure
Criar políticas usando o Microsoft Copilot no Azure

Compartilhar via

Obter respostas armazenadas em cache de solicitações de API do OpenAI do Azure

Modelos de Serviço OpenAI do Azure com suporte

Declaração de política

Atributos

Elementos

Uso

Observações de uso

Exemplos

Exemplo com a política correspondente azure-openai-semantic-cache-store

Comentários

Recursos adicionais

Compartilhar via

Obter respostas armazenadas em cache de solicitações de API do OpenAI do Azure

Modelos de Serviço OpenAI do Azure com suporte

Declaração de política

Atributos

Elementos

Uso

Observações de uso

Exemplos

Exemplo com a política correspondente azure-openai-semantic-cache-store

Políticas relacionadas

Conteúdo relacionado

Comentários

Recursos adicionais