Speech Service 할당량 및 제한

아티클
09/30/2024

이 문서에는 Azure AI 서비스의 음성 서비스에 대한 할당량 및 제한에 대한 빠른 참조와 자세한 설명이 포함되어 있습니다. 이 정보는 서비스의 모든 가격 책정 계층에 적용됩니다. 또한 요청 제한을 방지하기 위한 몇 가지 모범 사례가 포함되어 있습니다.

무료(F0) 가격 책정 계층의 경우 가격 책정 페이지의 월간 허용량도 참조하세요.

할당량 및 제한 참조

다음 섹션에서는 Speech Service에 적용되는 할당량 및 제한에 대한 빠른 가이드를 제공합니다.

표준(S0) 음성 리소스의 조정 가능한 할당량에 대한 자세한 내용은 추가 설명, 모범 사례 및 조정 지침을 참조하세요. 무료(F0) 음성 리소스에 대한 할당량 및 제한은 조정할 수 없습니다.

Important

Speech용 AI Services 리소스를 무료(F0)에서 표준(S0) 가격 책정 계층으로 전환하는 경우 해당 할당량을 변경하는 데 최대 몇 시간이 걸릴 수 있습니다.

리소스당 음성 텍스트 변환 할당량 및 제한

이 섹션에서는 음성 리소스당 음성 텍스트 변환 할당량 및 제한에 대해 설명합니다. 달리 지정되지 않는 한 한도는 조정할 수 없습니다.

실시간 음성 텍스트 변환 및 음성 번역

음성 SDK 또는 짧은 오디오용 음성 텍스트 변환 REST API를 사용하여 실시간 음성 텍스트 변환을 사용할 수 있습니다.

Important

이러한 제한은 동시 실시간 음성 텍스트 변환 요청 및 음성 번역 요청이 결합된 경우에 적용됩니다. 예를 들어, 60개의 동시 음성 텍스트 요청과 40개의 동시 음성 번역 요청이 있는 경우 동시 요청 한도인 100개에 도달하게 됩니다.

할당량	무료(F0)	Standard(S0)
동시 요청 제한 -기본 모델 엔드포인트	1 이 한도는 조정할 수 없습니다.	100(기본값) 속도는 표준(S0) 리소스에 대해 조정 가능합니다. 자세한 설명, 모범 사례 및 조정 지침을 참조하세요.
동시 요청 제한 - 사용자 지정 엔드포인트	1 이 한도는 조정할 수 없습니다.	100(기본값) 속도는 표준(S0) 리소스에 대해 조정 가능합니다. 자세한 설명, 모범 사례 및 조정 지침을 참조하세요.
실시간 분리를 위한 최대 오디오 길이입니다.	해당 없음	파일당 240분

빠른 대화기록

할당량	무료(F0)	Standard(S0)
최대 오디오 입력 파일 크기	해당 없음	200MB
최대 오디오 길이	해당 없음	파일당 120분
분당 최대 요청 수	해당 없음	600

전사 일괄 처리

할당량	무료(F0)	Standard(S0)
음성 텍스트 변환 REST API 제한	F0에 사용할 수 없음	10초당 요청 100개(분당 요청 600개)
최대 오디오 입력 파일 크기	해당 없음	1GB
컨테이너당 최대 Blob 수	해당 없음	10000
대화 내용 기록 요청당 최대 파일 수(여러 콘텐츠 URL을 입력으로 사용하는 경우)	해당 없음	1000
분할이 사용하도록 설정된 대화 내용 기록의 최대 오디오 길이입니다.	해당 없음	파일당 240분

모델 사용자 지정

이 표의 제한은 사용자 지정 음성 모델을 만들 때 음성 리소스별로 적용됩니다.

할당량	무료(F0)	Standard(S0)
REST API 제한	10초당 요청 100개(분당 요청 600개)	10초당 요청 100개(분당 요청 600개)
Speech 리소스당 최대 사용자 지정 모델 배포 수	1	50
최대 음성 데이터 세트 수	2	500
데이터 가져오기에 대한 최대 음향 데이터 세트 파일 크기	2GB	2GB
데이터 가져오기에 대한 최대 언어 데이터 세트 파일 크기	200MB	1.5GB
데이터 가져오기에 대한 최대 발음 데이터 세트 파일 크기	1KB	1MB
Models_Create API 요청에서 `text` 매개 변수를 사용할 때 최대 텍스트 크기	200KB	500KB

리소스당 텍스트 음성 변환 할당량 및 제한

이 섹션에서는 음성 리소스당 텍스트 음성 변환 할당량 및 제한에 대해 설명합니다.

실시간 텍스트 음성 변환

음성 SDK 또는 텍스트 음성 변환 REST API를 통해 실시간 텍스트 음성 변환을 사용할 수 있습니다. 달리 지정되지 않는 한 한도는 조정할 수 없습니다.

할당량	무료(F0)	Standard(S0)
미리 빌드된 신경망 음성 및 사용자 지정 신경망 음성에 대한 기간당 최대 트랜잭션 수입니다.	60초당 20개의 트랜잭션 이 한도는 조정할 수 없습니다.	200TPS(트랜잭션/초)(기본값) 속도는 표준(S0) 리소스에 대해 최대 1000TPS까지 조정할 수 있습니다. 자세한 설명, 모범 사례 및 조정 지침을 참조하세요.
요청당 생성되는 최대 오디오 길이	10분	10분
SSML의 최대 고유 `<voice>` 및 `<audio>` 태그 수	50	50
websocket의 회전당 최대 SSML 메시지 크기	64KB	64KB

일괄 처리 합성

이러한 제한은 조정할 수 없습니다. 일괄 처리 합성 대기 시간에 대한 자세한 내용은 일괄 처리 합성 대기 시간 및 모범 사례를 참조하세요.

할당량	무료(F0)	Standard(S0)
REST API 제한	F0에 사용할 수 없음	10초당 100개 요청
합성 작업을 만들기 위한 최대 JSON 페이로드 크기	해당 없음	2MB
동시 활성 합성 작업	해당 없음	제한 없음
합성 작업당 최대 텍스트 입력 수	해당 없음	10000
합성 작업이 최종 상태에 있기 때문에 최대 수명	해당 없음	최대 31일(속성을 사용하여 지정)

사용자 지정 신경망 음성 - 전문가

이 표의 제한은 전문적인 사용자 지정 신경망 음성 모델을 만들 때 음성 리소스당 적용됩니다.

할당량	무료(F0)	Standard(S0)
최대 TPS(초당 트랜잭션 수)	F0에 사용할 수 없음	200TPS(트랜잭션/초)(기본값)
최대 데이터 세트 수	해당 없음	500
최대 동시 데이터 세트 업로드 수	해당 없음	5
데이터 세트당 데이터 가져오기의 최대 데이터 파일 크기	해당 없음	2GB
스크립트 없이 긴 오디오 또는 오디오 업로드	해당 없음	예
최대 동시 모델 학습 수	해당 없음	4
최대 사용자 지정 엔드포인트 수	해당 없음	50

사용자 지정 신경망 음성 - 개인 보이스

이 표의 제한은 개인 보이스를 만들 때 음성 리소스별로 적용됩니다.

할당량	무료(F0)	Standard(S0)
REST API 제한(음성 합성 포함 안 됨)	F0에 사용할 수 없음	10초당 50개 요청
음성 합성을 위한 TPS(초당 최대 트랜잭션 수)	F0에 사용할 수 없음	200TPS(트랜잭션/초)(기본값)

일괄 처리 텍스트 음성 변환 아바타

할당량	무료(F0)	Standard(S0)
REST API 제한	F0에 사용할 수 없음	1분당 요청 2개

실시간 텍스트 음성 변환 아바타

할당량	무료(F0)	Standard(S0)
분당 새 연결 수	F0에 사용할 수 없음	분당 2개의 새로운 연결
말하기를 사용하는 최대 연결 기간	F0에 사용할 수 없음	30분¹
유휴 상태의 최대 연결 기간	F0에 사용할 수 없음	5분

¹ 실시간 아바타의 연속 작업을 30분 이상 보장하려면 자동 다시 연결할 수 있습니다. 자동 다시 연결을 설정하는 방법에 대한 정보는 이 샘플 코드("자동 다시 연결" 검색)를 참조하세요.

오디오 콘텐츠 만들기 도구

할당량	무료(F0)	Standard(S0)
파일 크기(SSML의 일반 텍스트)¹	파일당 3,000자	파일당 20,000자
파일 크기(어휘집 파일)²	파일당 30KB	파일당 100KB
SSML에서 청구 가능한 문자	파일당 15,000자	파일당 100,000자
오디오 라이브러리로 내보내기	1개 동시 작업	해당 없음

¹ 이 제한은 SSML의 일반 텍스트에만 적용되며 태그는 포함되지 않습니다.

² 어휘집 파일의 문자에는 요금이 청구되지 않습니다. SSML의 어휘집 요소만 청구 가능 문자로 계산됩니다. 자세한 내용은 청구 가능 문자를 참조하세요.

리소스당 화자 인식 할당량 및 제한

화자 인식은 20TPS(초당 트랜잭션)로 제한됩니다.

자세한 설명, 할당량 조정 및 모범 사례

Speech Services 할당량 중 일부는 조정할 수 있습니다. 이 섹션에서는 더 많은 설명, 모범 사례 및 조정 지침을 제공합니다.

표준(S0) 리소스에 대해 다음 할당량을 조정할 수 있습니다. 무료(F0) 요청 제한은 조정할 수 없습니다.

기본 모델 엔드포인트 및 사용자 지정 엔드포인트에 대한 음성 텍스트 변환 동시 요청 제한
미리 빌드된 신경망 음성 및 사용자 지정 신경망 음성에 대한 텍스트 음성 변환 기간당 최대 트랜잭션 수
음성 번역 동시 요청 제한

할당량 증량을 요청하기 전에(해당되는 경우) 현재 TPS(초당 트랜잭션 수)를 확인하고 할당량 증량이 필요한지 확인합니다. Speech Service는 자동 크기 조정 기술을 사용하여 주문형 모드에서 필요한 계산 리소스를 가져옵니다. 동시에 Speech Service는 과도한 하드웨어 용량을 유지하지 않음으로써 비용을 낮게 유지하려고 합니다.

예를 살펴보겠습니다. 애플리케이션에서 너무 많은 요청이 있음을 나타내는 429 응답 코드를 받는다고 가정합니다. 워크로드가 할당량 및 제한 참조에 정의된 제한 내에 있는 경우에도 애플리케이션에서 이 응답을 받습니다. 가장 가능성 높은 설명은 Speech Service가 수요에 맞게 스케일 업되고 있으며 아직 필요한 규모에 도달하지 못했다는 것입니다. 따라서 요청을 즉시 처리할 수 있을 만큼 충분한 리소스가 서비스에 없습니다. 이러한 경우 할당량을 늘려도 도움이 되지 않습니다. 대부분의 경우 곧 Speech Service가 확장될 예정이며 응답 코드 429를 유발하는 문제가 해결될 것입니다.

자동 크기 조정 중 제한을 완화하기 위한 일반적인 모범 사례

제한과 관련된 문제를 최소화하려면 다음 기술을 사용하는 것이 좋습니다.

애플리케이션에서 다시 시도 논리를 구현합니다.
워크로드가 급격히 변경되지 않도록 합니다. 워크로드를 점진적으로 늘립니다. 예를 들어 애플리케이션에서 텍스트 음성 변환을 사용하고 있고 현재 워크로드가 5TPS라고 가정해 보겠습니다. 그런 다음, 로드를 20TPS(즉, 4배 이상)로 늘립니다. Speech Service는 새 로드를 충족하기 위해 즉시 스케일 업을 시작하지만 필요에 따라 크기를 1초 이내에 조정할 수 없습니다. 일부 요청에는 응답 코드 429(요청이 너무 많음)가 표시됩니다.
다양한 로드 증가 패턴을 테스트합니다. 자세한 내용은 워크로드 패턴 예제를 참조하세요.
추가 Speech Service 리소스를 다른 지역에 만들고 워크로드를 분산시킵니다. (모든 리소스가 동일한 백 엔드 클러스터에서 제공되므로 여러 Speech Service 리소스를 동일한 지역에 만들어도 성능에 영향을 주지 않습니다.)

다음 섹션에서는 할당량 조정의 특정 사례에 대해 설명합니다.

음성 텍스트 변환: 실시간 음성 텍스트 변환 동시 요청 제한을 늘립니다.

기본적으로 동시 실시간 음성 텍스트 변환 및 음성 번역 결합 요청 수는 기준 모델에서는 리소스당 100개, 사용자 지정 모델에서는 사용자 지정 엔드포인트당 100개로 제한됩니다. 표준 가격 책정 계층의 경우 이 제한을 늘릴 수 있습니다. 제한을 완화하기 위한 모범 사례와 같이 요청을 제출하기 전에 이 문서의 앞부분에서 설명한 자료에 대해 잘 알고 있는지 확인합니다.

참고 항목

기본 및 사용자 지정 모델에 대한 동시 요청 제한은 개별적으로 조정해야 합니다. 많은 사용자 지정 모델 배포를 호스팅하는 많은 사용자 지정 엔드포인트와 연결된 Speech Services 리소스가 있을 수 있습니다. 필요에 따라 사용자 지정 엔드포인트당 제한 조정은 별도로 요청해야 합니다.

동시 요청 제한을 늘리는 것은 비용에 직접적인 영향을 주지 않습니다. Speech Service는 사용한 만큼만 지불하도록 요구하는 결제 모델을 사용합니다. 이 제한은 서비스에서 요청 제한을 시작하기 전에 크기를 조정할 수 있는 수준을 정의합니다.

Azure Portal, 명령줄 도구 또는 API 요청에서 동시 요청 제한 매개 변수의 기존 값을 볼 수 없습니다. 기존 값을 확인하려면 Azure 지원 요청을 만듭니다.

참고 항목

컨테이너는 호스트되는 하드웨어의 CPU에서만 제한되므로 음성 컨테이너에서 동시 요청 제한을 늘릴 필요가 없습니다. 그러나 음성 컨테이너에는 고려해야 하는 자체 용량 제한이 있습니다. 자세한 내용은 음성 컨테이너 FAQ를 참조하세요.

필요한 정보 준비

기본 모델의 경우:
- 음성 리소스 ID
- 지역
사용자 지정 모델의 경우:
- 지역
- 사용자 지정 엔드포인트 ID

기본 모델에 대한 정보를 가져오는 방법:

Azure Portal로 이동합니다.
동시 요청 제한을 늘리려는 Speech Service 리소스를 선택합니다.
리소스 관리 그룹에서 속성을 선택합니다.
다음 필드의 값을 복사하고 저장합니다.
- 리소스 ID
- 위치(엔드포인트 지역)

사용자 지정 모델에 대한 정보를 가져오는 방법:

Speech Studio 포털로 이동합니다.
필요한 경우 로그인하고, 사용자 지정 음성으로 이동합니다.
프로젝트를 선택하고, 배포로 이동합니다.
필요한 엔드포인트를 선택합니다.
다음 필드의 값을 복사하고 저장합니다.
- 서비스 지역(귀하의 엔드포인트 지역)
- 엔드포인트 ID

지원 요청 만들기 및 제출

리소스에 대한 동시 요청 제한을 늘리기 시작하거나 필요한 경우 지원 요청을 제출하여 현재 제한을 확인합니다. 이 경우 가능한 방법은 다음과 같습니다.

이전 섹션에 나열된 필수 정보가 있는지 확인합니다.
Azure Portal로 이동합니다.
동시 요청 제한을 늘리거나 확인하려는 Speech Service 리소스를 선택합니다.
지원 + 문제 해결 그룹에서 새 지원 요청을 선택합니다. Azure 구독 및 Azure 리소스에 대한 정보가 자동으로 채워진 새 창이 표시됩니다.
요약에서 원하는 항목을 설명합니다(예: "음성 텍스트 변환 동시 요청 제한 증가").
문제 유형에서 할당량 또는 구독 문제를 선택합니다.
문제 하위 유형에서 다음 중 하나를 선택합니다.
- 증가 요청의 경우 할당량 또는 동시 요청 증가
- 기존 제한 확인의 경우 할당량 또는 사용량 확인.
다음: 솔루션을 선택합니다. 요청 만들기 계속 진행
세부 정보 탭의 설명 필드에서 다음을 입력합니다.
- 요청이 음성 텍스트 변환 할당량에 대한 것이라는 메모
- 기본 또는 사용자 지정 모델의 선택 여부
- 이전에 수집한 Azure 리소스 정보
- 기타 필수 정보
검토 + 만들기 탭에서 만들기를 선택합니다.
Azure Portal 알림에서 지원 요청 번호를 확인합니다. 요청에 대해 곧 연락을 받았습니다.

워크로드 패턴 모범 사례의 예

다음은 좋은 접근 방식의 일반적인 예입니다. 필요에 따라 사용자 고유의 용도에 맞게 조정할 수 있는 템플릿으로만 사용됩니다.

Speech Service 리소스의 동시 요청 제한이 300으로 설정되어 있다고 가정합니다. 20개의 동시 연결에서 워크로드를 시작하고 90~120초마다 20개의 동시 연결을 통해 로드를 늘립니다. 서비스 응답을 제어하고, 요청이 너무 많은 경우(429 응답 코드) 대체(로드 감소)하는 논리를 구현합니다. 그런 다음, 1분 후에 로드 증가를 다시 시도하고, 여전히 작동하지 않는 경우 2분 후에 다시 시도합니다. 간격에 대해 1-2-4-4분 패턴을 사용합니다.

일반적으로 프로덕션으로 이동하기 전에 워크로드 및 워크로드 패턴을 테스트하는 것이 좋습니다.

텍스트 음성 변환: 동시 요청 제한 늘리기

표준 가격 책정 계층의 경우 이 제한을 늘릴 수 있습니다. 제한을 완화하기 위한 모범 사례와 같이 요청을 제출하기 전에 이 문서의 앞부분에서 설명한 자료에 대해 잘 알고 있는지 확인합니다.

Azure Portal, 명령줄 도구 또는 API 요청에서 동시 요청 제한 매개 변수의 기존 값을 볼 수 없습니다. 기존 값을 확인하려면 Azure 지원 요청을 만듭니다.

참고 항목

컨테이너는 호스트되는 하드웨어의 CPU에서만 제한되므로 음성 컨테이너에서 동시 요청 제한을 늘릴 필요가 없습니다.

필요한 정보 준비

증가 요청을 만들려면 사용자의 정보를 제공해야 합니다.

미리 빌드된 음성의 경우:
- 음성 리소스 ID
- 지역
사용자 지정 음성의 경우:
- 배포 지역
- 사용자 지정 엔드포인트 ID

미리 빌드된 음성에 대한 정보를 가져오는 방법:

Azure Portal로 이동합니다.
동시 요청 제한을 늘리려는 Speech Service 리소스를 선택합니다.
리소스 관리 그룹에서 속성을 선택합니다.
다음 필드의 값을 복사하고 저장합니다.
- 리소스 ID
- 위치(엔드포인트 지역)

사용자 지정 음성에 대한 정보를 가져오는 방법:

Speech Studio 포털로 이동합니다.
필요한 경우 로그인하고, 사용자 지정 음성으로 이동합니다.
프로젝트를 선택하고 모델 배포로 이동합니다.
필요한 엔드포인트를 선택합니다.
다음 필드의 값을 복사하고 저장합니다.
- 서비스 지역(귀하의 엔드포인트 지역)
- 엔드포인트 ID

지원 요청 만들기 및 제출

이전 섹션에 나열된 필수 정보가 있는지 확인합니다.
Azure Portal로 이동합니다.
동시 요청 제한을 늘리거나 확인하려는 Speech Service 리소스를 선택합니다.
지원 + 문제 해결 그룹에서 새 지원 요청을 선택합니다. Azure 구독 및 Azure 리소스에 대한 정보가 자동으로 채워진 새 창이 표시됩니다.
요약에서 원하는 항목을 설명합니다(예: "텍스트 음성 변환 동시 요청 제한 증가").
문제 유형에서 할당량 또는 구독 문제를 선택합니다.
문제 하위 유형에서 다음 중 하나를 선택합니다.
- 증가 요청의 경우 할당량 또는 동시 요청 증가
- 기존 제한 확인의 경우 할당량 또는 사용량 확인.
권장 솔루션 탭에서 다음을 선택합니다.
추가 세부 정보 탭에서 필수 항목을 모두 입력합니다. 그리고 세부 정보 입력란에 다음을 입력합니다.
- 요청이 텍스트 음성 변환 할당량에 대한 것이라는 메모
- 미리 빌드된 음성 또는 사용자 지정 음성을 선택합니다.
- 이전에 수집한 Azure 리소스 정보
- 기타 필수 정보
검토 + 만들기 탭에서 만들기를 선택합니다.
Azure Portal 알림에서 지원 요청 번호를 확인합니다. 요청에 대해 곧 연락을 받았습니다.

텍스트 음성 변환 아바타: 새로운 연결 제한 증가

텍스트 음성 변환 아바타의 분당 새 연결 한도를 늘리려면 영업 담당자에게 문의하여 다음 정보가 포함된 티켓을 만듭니다.

음성 리소스 URI
다음으로 증가하도록 새로운 제한 사항을 요청했습니다.
증가의 정당성
증가 시작 날짜
증가 종료 날짜
미리 빌드된 아바타 또는 사용자 지정 아바타

다음을 통해 공유

Speech Service 할당량 및 제한

할당량 및 제한 참조

리소스당 음성 텍스트 변환 할당량 및 제한

실시간 음성 텍스트 변환 및 음성 번역

빠른 대화기록

전사 일괄 처리

모델 사용자 지정

리소스당 텍스트 음성 변환 할당량 및 제한

실시간 텍스트 음성 변환

일괄 처리 합성

사용자 지정 신경망 음성 - 전문가

사용자 지정 신경망 음성 - 개인 보이스

일괄 처리 텍스트 음성 변환 아바타

실시간 텍스트 음성 변환 아바타

오디오 콘텐츠 만들기 도구

리소스당 화자 인식 할당량 및 제한

자세한 설명, 할당량 조정 및 모범 사례

자동 크기 조정 중 제한을 완화하기 위한 일반적인 모범 사례

음성 텍스트 변환: 실시간 음성 텍스트 변환 동시 요청 제한을 늘립니다.

필요한 정보 준비

지원 요청 만들기 및 제출

워크로드 패턴 모범 사례의 예

텍스트 음성 변환: 동시 요청 제한 늘리기

필요한 정보 준비

지원 요청 만들기 및 제출

텍스트 음성 변환 아바타: 새로운 연결 제한 증가

피드백

추가 리소스