Azure AI 서비스의 Azure AI 모델 유추 할당량 및 제한

아티클
01/30/2025

이 문서에는 Azure AI 서비스에서 Azure AI 모델의 유추에 대한 할당량 및 제한에 대한 빠른 참조 및 자세한 설명이 포함되어 있습니다. Azure OpenAI 서비스와 관련된 할당량 및 제한은 Azure OpenAI 서비스의 할당량 및 제한을 참조하세요.

할당량 및 제한 참조

다음 섹션에서는 Azure AI 서비스의 Azure AI 모델의 유추 서비스에 적용되는 기본 할당량 및 제한에 대한 빠른 가이드를 제공합니다.

리소스 제한

제한 이름	제한 값
Azure 구독당 지역당 Azure AI 서비스 리소스	30
리소스당 최대 배포	32

속도 제한

제한 이름	제한 값
분당 토큰(Azure OpenAI 모델)	모델 및 SKU마다 다릅니다. Azure OpenAI에 대한 제한을 참조하세요.
분당 토큰(나머지 모델)	200.000
분당 요청(Azure OpenAI 모델)	모델 및 SKU마다 다릅니다. Azure OpenAI에 대한 제한을 참조하세요.
분당 요청(나머지 모델)	1.000

기타 제한

제한 이름	제한 값
API 요청의 사용자 지정 헤더의 최대 수¹	10

¹ 현재 API는 최대 10개의 사용자 지정 헤더를 허용하며, 이는 파이프라인을 통해 전달되어 반환됩니다. 일부 고객이 헤더 수를 초과하여 HTTP 431 오류가 발생하는 것을 확인했습니다. 헤더 볼륨을 줄이는 것 외에는 이 오류에 대한 솔루션이 없습니다. 향후 API 버전에서는 더 이상 사용자 지정 헤더를 전달하지 않습니다. 고객은 향후 시스템 아키텍처에서 사용자 지정 헤더에 의존하지 않는 것이 좋습니다.

사용 계층

글로벌 표준 배포는 Azure의 글로벌 인프라를 사용하여 고객의 유추 요청에 가장 적합한 가용성으로 고객 트래픽을 데이터 센터로 동적으로 라우팅합니다. 이렇게 하면 트래픽 수준이 낮거나 중간 수준인 고객에게 더 일관된 대기 시간을 제공할 수 있습니다. 지속적인 사용 수준이 높은 고객은 응답 대기 시간에 더 많은 variabilities를 볼 수 있습니다.

사용량 제한은 고객이 응답 대기 시간에 더 큰 가변성을 볼 수 있는 위의 사용량 수준을 결정합니다. 고객의 사용량은 모델별로 정의되며 지정된 테넌트에 대한 모든 지역의 모든 구독에서 모든 배포에서 사용되는 총 토큰입니다.

속도 제한을 유지하기 위한 일반적인 모범 사례

속도 제한과 관련된 문제를 최소화하려면 다음 기술을 사용하는 것이 좋습니다.

애플리케이션에서 다시 시도 논리를 구현합니다.
워크로드가 급격히 변경되지 않도록 합니다. 워크로드를 점진적으로 늘립니다.
다양한 로드 증가 패턴을 테스트합니다.
배포에 할당된 할당량을 늘립니다. 필요한 경우 다른 배포에서 할당량을 이동합니다.

요청이 기본 할당량 및 한도로 증가

할당량 증가 요청은 요청별로 제출 및 평가할 수 있습니다. 서비스 요청을 제출합니다.

다음 단계

Azure AI 모델의 유추 서비스에서 사용할 수 있는 모델에 대해 자세히 알아보기

다음을 통해 공유