Azure OpenAI 서비스 할당량 및 제한
이 문서에는 Azure AI 서비스의 Azure OpenAI에 대한 할당량 및 제한에 대한 빠른 참조와 자세한 설명이 포함되어 있습니다.
할당량 및 제한 참조
다음 섹션에서는 Azure OpenAI에 적용되는 기본 할당량 및 제한에 대한 빠른 가이드를 제공합니다.
이름 제한 | 값 제한 |
---|---|
Azure 구독당 지역당 Azure OpenAI 리소스 | 30 |
기본 DALL-E 2 할당량 한도 | 동시 요청 2개 |
기본 DALL-E 3 할당량 한도 | 2 용량 단위(분당 요청 6개) |
기본 위스퍼 할당량 제한 | 분당 요청 3개 |
요청당 최대 프롬프트 토큰 | 모델마다 다릅니다. 자세한 내용은 Azure OpenAI 서비스 모델을 참조하세요. |
리소스당 최대 표준 배포 | 32 |
최대 미세 조정 모델 배포 | 5 |
리소스당 총 학습 작업 수 | 100 |
리소스당 최대 동시 실행 학습 작업 | 1 |
대기 중인 최대 학습 작업 | 20 |
리소스당 최대 파일(미세 조정) | 50 |
리소스당 모든 파일의 총 크기(미세 조정) | 1GB |
최대 학습 작업 시간(초과 시 작업 실패) | 720시간 |
최대 학습 작업 크기(학습 파일의 토큰 수) * (Epoch 수) | 20억 |
업로드당 모든 파일의 최대 크기(데이터의 Azure OpenAI) | 16MB |
/embeddings 를 사용하는 배열의 최대 수 또는 입력 |
2048 |
최대 /chat/completions 메시지 수 |
2048 |
최대 /chat/completions 함수 수 |
128 |
최대 /chat completions 도구 수 |
128 |
배포당 프로비전된 처리량 단위의 최대 수 | 100,000 |
도우미/스레드당 최대 파일 | API 또는 Azure AI Foundry 포털을 사용하는 경우 10,000개. Azure OpenAI Studio에서 제한은 20개였습니다. |
도우미 최대 파일 크기 및 미세 조정 | 512MB Azure AI Foundry 포털을 통해 200MB |
도우미를 위한 모든 업로드 파일의 최대 크기 | 100GB |
도우미 토큰 제한 | 2,000,000개의 토큰 제한 |
요청당 GPT-4o 최대 이미지(메시지 배열/대화 내용의 이미지 수) | 50 |
GPT-4 vision-preview 및 GPT-4 turbo-2024-04-09 기본 최대 토큰 |
16 잘린 응답을 방지하려면 max_tokens 매개 변수 값을 늘립니다. GPT-4o 최대 토큰의 기본값은 4096입니다. |
API 요청의 사용자 지정 헤더의 최대 수1 | 10 |
메시지 문자 제한 | 1048576 |
1 현재 API는 최대 10개의 사용자 지정 헤더를 허용하며, 이는 파이프라인을 통해 전달되어 반환됩니다. 일부 고객은 이제 이 헤더 수를 초과하여 HTTP 431 오류가 발생합니다. 헤더 볼륨을 줄이는 것 외에는 이 오류에 대한 솔루션이 없습니다. 향후 API 버전에서는 더 이상 사용자 지정 헤더를 전달하지 않습니다. 고객은 향후 시스템 아키텍처에서 사용자 지정 헤더에 의존하지 않는 것이 좋습니다.
지역 할당량 한도
지역 | o1-mini | o1 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o-mini | GPT-35-Turbo | GPT-35-Turbo-Instruct | o1-mini - GlobalStandard | o1 - GlobalStandard | gpt-4o - GlobalStandard | gpt-4o-mini - GlobalStandard | GPT-4-Turbo - GlobalStandard | GPT-4o - Global-Batch | GPT-4o-mini - Global-Batch | GPT-4 - Global-Batch | GPT-4-Turbo - Global-Batch | gpt-35-turbo - Global-Batch | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | GPT-4o - finetune | GPT-4o-mini - finetune | GPT-4 - finetune | Babbage-002 | Babbage-002 - 미세 조정 | Davinci-002 | Davinci-002 - 미세 조정 | GPT-35-Turbo - 미세 조정 | GPT-35-Turbo-1106 - 미세 조정 | GPT-35-Turbo-0125 - 미세 조정 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | - | - | 40K | 80K | 80K | 30K | - | - | 300K | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | 350K | - | - | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | - | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | 350K | - | - | - | - | - | - | - | - | - | - | - | - |
canadaeast | - | - | 40K | 80K | 80K | - | - | - | 300K | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | 350K | 350K | 350K | - | - | - | - | - | - | - | - | - | - |
eastus | 1 M | 600K | - | - | 80K | - | 1 M | 2 M | 240K | 240K | 50M | 30M | 30M | 50M | 2 M | 5 B | 15 B | 150M | 300M | 10B | 240K | 350K | 350K | - | - | - | - | - | - | - | - | - | - |
eastus2 | 1 M | 600K | - | - | 80K | - | 1 M | 2 M | 300K | - | 50M | 30M | 30M | 50M | 2 M | - | - | - | - | - | 350K | 350K | 350K | 250 K | - | - | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | - | - | 20K | 60K | 80K | - | - | - | 240K | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | 240K | - | 350K | - | - | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | - | - | 30K | - | - | 300K | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | 350K | 350K | 350K | - | - | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | - | - | - | - | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | 1 M | 600K | - | - | 80K | - | 1 M | 2 M | 300K | - | 50M | 30M | 30M | 50M | 2 M | - | - | - | - | - | 350K | - | - | 250 K | 500 K | 100K | 240K | 250 K | 240K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | - | - | 150K | - | - | - | - | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | 350K | - | 350K | - | - | - | - | - | - | - | - | - | - |
polandcentral | - | - | - | - | - | - | - | - | - | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | - | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | 350K | - | - | - | - | - | - | - | - | - | - | - | - |
southcentralus | 1 M | 600K | - | - | 80K | - | 1 M | 2 M | 240K | - | 50M | 30M | 30M | 50M | 2 M | - | - | - | - | - | 240K | - | - | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | - | - | 150K | - | - | - | 300K | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | 350K | - | 350K | - | - | - | - | - | - | - | - | - | - |
스페인 중부 | - | - | - | - | - | - | - | - | - | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
스웨덴 중부 | 1 M | 600K | 40K | 80K | 150K | 30K | 1 M | 2 M | 300K | 240K | 50M | 30M | 30M | 50M | 2 M | 5 B | 15 B | 150M | 300M | 10B | 350K | - | 350K | 250 K | 500 K | 100K | 240K | 250 K | 240K | 250 K | 250 K | 250 K | 250 K |
스위스 북부 | - | - | 40K | 80K | - | 30K | - | - | 300K | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | 350K | - | - | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | - | - | 80K | - | - | - | 240K | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | 350K | - | 350K | - | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | - | - | 240K | - | - | - | 30M | 50M | 2 M | - | - | - | - | - | 240K | - | - | - | - | - | - | - | - | - | - | - | - |
westus | 1 M | 600K | - | - | 80K | 30K | 1 M | 2 M | 300K | - | 50M | 30M | 30M | 50M | 2 M | 5 B | 15 B | 150M | 300M | 10B | 350K | - | - | - | - | - | - | - | - | - | - | - | - |
westus3 | 1 M | 600K | - | - | 80K | - | 1 M | 2 M | 300K | - | 50M | 30M | 30M | 50M | 2 M | - | - | - | - | - | 350K | - | 350K | - | - | - | - | - | - | - | - | - | - |
Batch 제한
이름 제한 | 값 제한 |
---|---|
리소스당 최대 파일 | 500 |
최대 입력 파일 크기 | 200MB |
파일당 최대 요청 수 | 100,000 |
일괄 처리 할당량
이 표는 일괄 처리 할당량 한도를 보여 줍니다. 글로벌 일괄 처리에 대한 할당량 값은 큐에 넣은 토큰으로 표현됩니다. 일괄 처리를 위해 파일을 제출하면 해당 파일에 있는 토큰의 수가 계산됩니다. 일괄 작업이 종료 상태에 도달할 때까지 해당 토큰은 큐에 넣은 총 토큰 한도에서 제외됩니다.
글로벌 일괄 처리
모델 | 기업 계약 | 기본값 | 월간 신용 카드 기반 구독 | MSDN 구독 | Azure for Students, 평가판 |
---|---|---|---|---|---|
gpt-4o |
5 B | 200M | 50M | 90K | 해당 없음 |
gpt-4o-mini |
15 B | 1 B | 50M | 90K | 해당 없음 |
gpt-4-turbo |
300M | 80 M | 40M | 90K | 해당 없음 |
gpt-4 |
150M | 30M | 5M | 100K | 해당 없음 |
gpt-35-turbo |
10B | 1 B | 100M | 2 M | 50K |
B = 10억 | M = 100만 | K = 1천
데이터 영역 일괄 처리
모델 | 기업 계약 | 기본값 | 월간 신용 카드 기반 구독 | MSDN 구독 | Azure for Students, 평가판 |
---|---|---|---|---|---|
gpt-4o |
500M | 30M | 30M | 90K | 해당 없음 |
gpt-4o-mini |
1.5 B | 100M | 50M | 90K | 해당 없음 |
o1 및 o1-mini 속도 제한
Important
o1 시리즈 모델을 사용하는 할당량의 RPM/TPM 비율은 이전 채팅 완료 모델과 다르게 작동합니다.
- 이전 채팅 모델: 용량 1단위 = 6 RPM 및 1,000TPM.
- o1 및 o1-preview: 용량 1개 단위 = RPM 1개 및 TPM 6,000TPM
- o1-mini: 용량 1단위 = 10,000TPM당 RPM 1개.
RPM/TPM 비율의 변경으로 인해 1:1000 비율 다음에 이전 채팅 완성 모델이 계속 있다고 가정하는 경우 할당량 할당이 실수로 발생할 수 있으므로 프로그래밍 방식 모델 배포에 특히 중요합니다.
이전 비율이 새 o1 시리즈 모델에 적용된다고 가정하는 할당량/사용량 API에는 알려진 문제가 있습니다. API는 올바른 기본 용량 수를 반환하지만 TPM의 정확한 계산에 올바른 비율을 적용하지는 않습니다.
o1 및 o1-mini 글로벌 표준
모델 | 계층 | 분당 토큰(TPM) 할당량 한도 | 분당 요청 |
---|---|---|---|
o1 & o1-preview |
기업 계약 | 30M | 5K |
o1-mini |
기업 계약 | 50M | 5K |
o1 & o1-preview |
기본값 | 3M | 500 |
o1-mini |
기본값 | 5M | 500 |
o1-preview 및 o1-mini standard
모델 | 계층 | 분당 토큰(TPM) 할당량 한도 | 분당 요청 |
---|---|---|---|
o1-preview |
기업 계약 | 600K | 100 |
o1-mini |
기업 계약 | 1 M | 100 |
o1-preview |
기본값 | 300K | 50 |
o1-mini |
기본값 | 500 K | 50 |
gpt-4o 및 GPT-4 Turbo 속도 제한
gpt-4o
, gpt-4o-mini
및gpt-4
(turbo-2024-04-09
)에는 특정 고객 형식에 대해 더 높은 한도가 적용된 요금 한도 계층이 있습니다.
gpt-4o 및 GPT-4 Turbo 글로벌 표준
모델 | 계층 | 분당 토큰(TPM) 할당량 한도 | 분당 요청 |
---|---|---|---|
gpt-4o |
기업 계약 | 30M | 180K |
gpt-4o-mini |
기업 계약 | 50M | 300K |
gpt-4 (turbo-2024-04-09) |
기업 계약 | 2 M | 12 K |
gpt-4o |
기본값 | 450K | 2.7K |
gpt-4o-mini |
기본값 | 2 M | 12 K |
gpt-4 (turbo-2024-04-09) |
기본값 | 450K | 2.7K |
M = 백만 | K = 천
gpt-4o 데이터 영역 표준
모델 | 계층 | 분당 토큰(TPM) 할당량 한도 | 분당 요청 |
---|---|---|---|
gpt-4o |
기업 계약 | 10M | 60K |
gpt-4o-mini |
기업 계약 | 2천만 개 | 120K |
gpt-4o |
기본값 | 300K | 1.8K |
gpt-4o-mini |
기본값 | 1 M | 6K |
M = 백만 | K = 천
gpt-4o 표준
모델 | 계층 | 분당 토큰(TPM) 할당량 한도 | 분당 요청 |
---|---|---|---|
gpt-4o |
기업 계약 | 1 M | 6K |
gpt-4o-mini |
기업 계약 | 2 M | 12 K |
gpt-4o |
기본값 | 150K | 900 |
gpt-4o-mini |
기본값 | 450K | 2.7K |
M = 백만 | K = 천
gpt-4o 오디오
각 gpt-4o-realtime-preview
모델 배포에 대한 속도 제한은 100K TPM 및 1K RPM입니다. 미리 보기 중에 Azure AI Foundry 포털 및 API는 다른 속도 제한을 부정확하게 표시할 수 있습니다. 다른 속도 제한을 설정하려고 해도 실제 속도 제한은 100K TPM 및 1K RPM이 됩니다.
모델 | 계층 | 분당 토큰(TPM) 할당량 한도 | 분당 요청 |
---|---|---|---|
gpt-4o-realtime-preview |
기본값 | 100K | 1K |
M = 백만 | K = 천
사용 계층
글로벌 표준 배포는 Azure의 글로벌 인프라를 사용하여 고객의 유추 요청에 가장 적합한 가용성으로 고객 트래픽을 데이터 센터로 동적으로 라우팅합니다. 마찬가지로, 데이터 영역 표준 배포를 사용하면 Azure 글로벌 인프라를 활용하여 각 요청에 가장 적합한 가용성으로 Microsoft 정의 데이터 영역 내의 데이터 센터로 트래픽을 동적으로 라우팅할 수 있습니다. 이렇게 하면 트래픽 수준이 낮거나 중간 수준인 고객에게 더 일관된 대기 시간을 제공할 수 있습니다. 지속적인 사용 수준이 높은 고객은 응답 대기 시간에 더 큰 가변성을 볼 수 있습니다.
사용량 제한은 고객이 응답 대기 시간에 더 큰 가변성을 볼 수 있는 위의 사용량 수준을 결정합니다. 고객의 사용량은 모델별로 정의되며 지정된 테넌트에 대한 모든 지역의 모든 구독에서 모든 배포에서 사용되는 총 토큰입니다.
참고 항목
사용 계층은 표준, 데이터 영역 표준 및 전역 표준 배포 유형에만 적용됩니다. 사용 계층은 전역 일괄 처리 및 프로비전된 처리량 배포에는 적용되지 않습니다.
GPT-4o 글로벌 표준, 데이터 영역 표준 및 표준
모델 | 월별 사용량 계층 |
---|---|
gpt-4o |
120억 토큰 |
gpt-4o-mini |
850억 토큰 |
GPT-4 표준
모델 | 월별 사용량 계층 |
---|---|
gpt-4 + gpt-4-32k (모든 버전) |
60억 |
기타 제품 유형
Azure 구독이 특정 제안 유형에 연결되어 있는 경우 최대 할당량 값이 위 테이블에 표시된 값보다 낮습니다.
계층 | 분당 토큰(TPM) 할당량 한도 |
---|---|
Azure for Students, 평가판 | 1K(모든 모델) |
MSDN 구독 | GPT 3.5 Turbo 시리즈: 30K GPT-4 시리즈: 8K |
월간 신용 카드 기반 구독 1 | GPT 3.5 Turbo 시리즈: 30K GPT-4 시리즈: 8K |
1 이는 현재 제안 유형 0003P에 적용됩니다
Azure Portal에서 구독으로 이동하고 구독 개요 창을 확인하여 구독과 연결된 제안 유형을 확인할 수 있습니다. 제안 유형은 구독 개요의 계획 필드에 해당합니다.
속도 제한을 유지하기 위한 일반적인 모범 사례
속도 제한과 관련된 문제를 최소화하려면 다음 기술을 사용하는 것이 좋습니다.
- 애플리케이션에서 다시 시도 논리를 구현합니다.
- 워크로드가 급격히 변경되지 않도록 합니다. 워크로드를 점진적으로 늘립니다.
- 다양한 로드 증가 패턴을 테스트합니다.
- 배포에 할당된 할당량을 늘립니다. 필요한 경우 다른 배포에서 할당량을 이동합니다.
할당량 증가를 요청하는 방법
할당량 증가 요청은 할당량 증가 요청 양식을 통해 제출할 수 있습니다. 높은 수요로 인해 할당량 증가 요청이 수락되고 수신된 순서대로 채워집니다. 기존 할당량 할당을 사용하는 트래픽을 생성하는 고객에게 우선 순위가 지정되며, 이 조건이 충족되지 않으면 요청이 거부될 수 있습니다.
다른 속도 제한의 경우 서비스 요청을 제출하세요.
다음 단계
Azure OpenAI 배포에 대한 할당량을 관리하는 방법을 알아봅니다. Azure OpenAI를 지원하는 기본 모델에 대해 자세히 알아봅니다.