다음을 통해 공유


Azure OpenAI API 요청에 대한 캐시 응답

적용 대상: 모든 API Management 계층

azure-openai-semantic-cache-store 정책은 구성된 외부 캐시에 대한 Azure OpenAI 채팅 완료 API 및 완료 API 요청에 대한 응답을 캐시합니다. 응답 캐싱은 백 엔드 Azure OpenAI API에 적용되는 대역폭 및 처리 요구 사항을 줄이고 API 소비자가 인지하는 대기 시간을 낮춥니다.

참고 항목

참고 항목

정책 문에 제공된 순서대로 정책의 요소 및 자식 요소를 설정합니다. API Management 정책을 설정하거나 편집하는 방법에 대해 자세히 알아봅니다.

지원되는 Azure OpenAI 서비스 모델

이 정책은 다음 유형의 Azure OpenAI Service에서 API Management에 추가된 API와 함께 사용됩니다.

API 형식 지원되는 모델
채팅 완료 gpt-3.5

gpt-4
Completion gpt-3.5-turbo-instruct
포함 text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002

자세한 내용은 Azure OpenAI 서비스 모델을 참조하세요.

정책 문

<azure-openai-semantic-cache-store duration="seconds"/>

특성

특성 설명 필수 항목 기본값
duration 캐시된 항목의 TTL(Time-to-Live)로 초 단위로 지정합니다. 정책 식이 허용됩니다. 해당 없음

사용

사용법 참고 사항

  • 이 정책은 정책 섹션에서 한 번만 사용할 수 있습니다.
  • 캐시 조회가 실패하면 캐시 관련 작업을 사용하는 API 호출에서 오류가 발생하지 않고 캐시 작업이 성공적으로 완료됩니다.

예제

해당 azure-openai-semantic-cache-lookup 정책을 사용하는 예제

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

정책 작업에 대한 자세한 내용은 다음을 참조하세요.