Azure OpenAI API 요청에 대한 캐시 응답

아티클
12/18/2024

적용 대상: 모든 API Management 계층

azure-openai-semantic-cache-store 정책은 구성된 외부 캐시에 대한 Azure OpenAI 채팅 완료 API 및 완료 API 요청에 대한 응답을 캐시합니다. 응답 캐싱은 백 엔드 Azure OpenAI API에 적용되는 대역폭 및 처리 요구 사항을 줄이고 API 소비자가 인지하는 대기 시간을 낮춥니다.

참고 항목

이 정책에는 해당하는 Azure OpenAI API 요청에 대한 캐시 응답 가져오기 정책이 있어야 합니다.
의미 체계 캐싱을 사용하도록 설정하기 위한 필수 조건과 단계는 Azure API Management에서 Azure OpenAI API에 대한 의미 체계 캐싱 사용을 참조하세요.
현재 이 정책은 미리 보기 상태입니다.

참고 항목

정책 문에 제공된 순서대로 정책의 요소 및 자식 요소를 설정합니다. API Management 정책을 설정하거나 편집하는 방법에 대해 자세히 알아봅니다.

지원되는 Azure OpenAI 서비스 모델

이 정책은 다음 유형의 Azure OpenAI Service에서 API Management에 추가된 API와 함께 사용됩니다.

API 형식	지원되는 모델
채팅 완료	gpt-3.5 gpt-4
Completion	gpt-3.5-turbo-instruct
포함	text-embedding-3-large text-embedding-3-small text-embedding-ada-002

자세한 내용은 Azure OpenAI 서비스 모델을 참조하세요.

정책 문

<azure-openai-semantic-cache-store duration="seconds"/>

특성

특성	설명	필수 항목	기본값
duration	캐시된 항목의 TTL(Time-to-Live)로 초 단위로 지정합니다. 정책 식이 허용됩니다.	예	해당 없음

사용

정책 섹션: outbound
정책 범위: global, product, API, operation
게이트웨이: 클래식, v2, 소비

사용법 참고 사항

이 정책은 정책 섹션에서 한 번만 사용할 수 있습니다.
캐시 조회가 실패하면 캐시 관련 작업을 사용하는 API 호출에서 오류가 발생하지 않고 캐시 작업이 성공적으로 완료됩니다.

예제

해당 azure-openai-semantic-cache-lookup 정책을 사용하는 예제

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

정책 작업에 대한 자세한 내용은 다음을 참조하세요.

다음을 통해 공유

Azure OpenAI API 요청에 대한 캐시 응답

지원되는 Azure OpenAI 서비스 모델

정책 문

특성

사용

사용법 참고 사항

예제

해당 azure-openai-semantic-cache-lookup 정책을 사용하는 예제

피드백

추가 리소스

다음을 통해 공유

Azure OpenAI API 요청에 대한 캐시 응답

지원되는 Azure OpenAI 서비스 모델

정책 문

특성

사용

사용법 참고 사항

예제

해당 azure-openai-semantic-cache-lookup 정책을 사용하는 예제

관련 정책

관련 콘텐츠

피드백

추가 리소스