Azure OpenAI API 요청에 대한 캐시 응답
적용 대상: 모든 API Management 계층
azure-openai-semantic-cache-store
정책은 구성된 외부 캐시에 대한 Azure OpenAI 채팅 완료 API 및 완료 API 요청에 대한 응답을 캐시합니다. 응답 캐싱은 백 엔드 Azure OpenAI API에 적용되는 대역폭 및 처리 요구 사항을 줄이고 API 소비자가 인지하는 대기 시간을 낮춥니다.
참고 항목
- 이 정책에는 해당하는 Azure OpenAI API 요청에 대한 캐시 응답 가져오기 정책이 있어야 합니다.
- 의미 체계 캐싱을 사용하도록 설정하기 위한 필수 조건과 단계는 Azure API Management에서 Azure OpenAI API에 대한 의미 체계 캐싱 사용을 참조하세요.
- 현재 이 정책은 미리 보기 상태입니다.
참고 항목
정책 문에 제공된 순서대로 정책의 요소 및 자식 요소를 설정합니다. API Management 정책을 설정하거나 편집하는 방법에 대해 자세히 알아봅니다.
지원되는 Azure OpenAI 서비스 모델
이 정책은 다음 유형의 Azure OpenAI Service에서 API Management에 추가된 API와 함께 사용됩니다.
API 형식 | 지원되는 모델 |
---|---|
채팅 완료 | gpt-3.5 gpt-4 |
Completion | gpt-3.5-turbo-instruct |
포함 | text-embedding-3-large text-embedding-3-small text-embedding-ada-002 |
자세한 내용은 Azure OpenAI 서비스 모델을 참조하세요.
정책 문
<azure-openai-semantic-cache-store duration="seconds"/>
특성
특성 | 설명 | 필수 항목 | 기본값 |
---|---|---|---|
duration | 캐시된 항목의 TTL(Time-to-Live)로 초 단위로 지정합니다. 정책 식이 허용됩니다. | 예 | 해당 없음 |
사용
사용법 참고 사항
- 이 정책은 정책 섹션에서 한 번만 사용할 수 있습니다.
- 캐시 조회가 실패하면 캐시 관련 작업을 사용하는 API 호출에서 오류가 발생하지 않고 캐시 작업이 성공적으로 완료됩니다.
예제
해당 azure-openai-semantic-cache-lookup 정책을 사용하는 예제
<policies>
<inbound>
<base />
<azure-openai-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="azure-openai-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
</inbound>
<outbound>
<azure-openai-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
관련 정책
관련 콘텐츠
정책 작업에 대한 자세한 내용은 다음을 참조하세요.
- 자습서: API 변환 및 보호
- 정책 문 및 해당 설정에 대한 전체 목록에 대한 정책 참조
- 정책 식
- 정책 설정 또는 편집
- 정책 구성 재사용
- 정책 코드 조각 리포지토리
- Azure의 Microsoft Copilot을 사용하는 작성자 정책