Compartilhar via


Obter respostas armazenadas em cache de solicitações de API do OpenAI do Azure

APLICA-SE A: todas as camadas do Gerenciamento de API

Use a política azure-openai-semantic-cache-lookup para realizar pesquisa de cache de respostas para a API de Conclusão de Chat do OpenAI do Azure e solicitações de API de Conclusão de um cache externo configurado, com base na proximidade de vetor do prompt para solicitações anteriores e um limite de pontuação de similaridade especificado. O cache das respostas reduz os requisitos de largura de banda e processamento impostos à API do OpenAI do Azure de back-end e diminui a latência percebida pelos consumidores da API.

Observação

Observação

Defina os elementos da política e os elementos filho na ordem fornecida na declaração da política. Saiba mais sobre como definir e editar as políticas de Gerenciamento de API.

Modelos de Serviço OpenAI do Azure com suporte

A política é usada com APIs adicionadas ao Gerenciamento de API do Serviço OpenAI do Azure dos seguintes tipos:

Tipo de API Modelos com suporte
Conclusão do chat gpt-3.5

gpt-4
Completion gpt-3.5-turbo-instruct
Incorporações text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002

Para obter mais informações, consulte Modelos do Serviço OpenAI do Azure.

Declaração de política

<azure-openai-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

Atributos

Atributo Descrição Obrigatório Padrão
score-threshold O limite de pontuação de similaridade usado para determinar se deve retornar uma resposta armazenada em cache a um prompt. O valor é um número decimal entre 0,0 e 1,0. Saiba mais. Yes N/D
embeddings-backend-id ID de back-end para a chamada à API de incorporações do OpenAI. Yes N/D
ignore-system-messages Booliano. Se definido como true, remove as mensagens do sistema de um prompt de conclusão de chat GPT antes de avaliar a similaridade de cache. Não false
max-message-count Se especificado, o número de mensagens de diálogo restantes depois de ignorar o armazenamento em cache. Não N/D

Elementos

Nome Descrição Obrigatório
vary-by Uma expressão personalizada determinada em runtime cujo valor particiona o cache. Se vários elementos vary-by forem adicionados, os valores são concatenados para criar uma combinação exclusiva. Não

Uso

Observações de uso

  • Essa política só pode ser usada uma vez em uma seção de política.

Exemplos

Exemplo com a política correspondente azure-openai-semantic-cache-store

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte: