다음을 통해 공유


대규모 언어 모델 API 요청에 대한 캐시 응답

적용 대상: 모든 API Management 계층

llm-semantic-cache-store 정책은 채팅 완료 API 및 완료 API 요청에 대한 응답을 구성된 외부 캐시에 캐시합니다. 응답 캐싱은 백 엔드 Azure OpenAI API에 적용되는 대역폭 및 처리 요구 사항을 줄이고 API 소비자가 인지하는 대기 시간을 낮춥니다.

참고 항목

참고 항목

정책 문에 제공된 순서대로 정책의 요소 및 자식 요소를 설정합니다. API Management 정책을 설정하거나 편집하는 방법에 대해 자세히 알아봅니다.

지원되는 모델

Azure AI 모델 유추 API를 통해 사용할 수 있는 Azure API Management에 추가된 LLM API와 함께 정책을 사용합니다.

정책 문

<llm-semantic-cache-store duration="seconds"/>

특성

특성 설명 필수 항목 기본값
duration 캐시된 항목의 TTL(Time-to-Live)로 초 단위로 지정합니다. 정책 식이 허용됩니다. 해당 없음

사용

사용법 참고 사항

  • 이 정책은 정책 섹션에서 한 번만 사용할 수 있습니다.
  • 캐시 조회가 실패하면 캐시 관련 작업을 사용하는 API 호출에서 오류가 발생하지 않고 캐시 작업이 성공적으로 완료됩니다.

예제

해당 llm-semantic-cache-lookup 정책이 있는 예

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

정책 작업에 대한 자세한 내용은 다음을 참조하세요.