다음을 통해 공유


음성 텍스트 변환 REST API

음성 텍스트 변환 REST API는 일괄 처리 전사사용자 지정 음성에 사용됩니다.

Important

Speech to text REST API 버전은 2024-11-15 일반적으로 사용할 수 있는 최신 버전입니다.

  • 음성 텍스트 변환 REST API 버전은 2024-05-15-preview 발표 날짜에 사용 중지됩니다.
  • Speech to text REST API v3.0, v3.1, v3.23.2-preview.1, 및 3.2-preview.2 는 2026년 4월 1일에 사용 중지됩니다.

업그레이드에 대한 자세한 내용은 Speech to text REST API v3.0에서 v3.1로, v3.1에서 v3.2로, v3.2에서 2024-11-15로 마이그레이션 가이드를 참조하세요.

음성 텍스트 변환 REST API를 사용하여 다음을 수행할 수 있습니다.

  • 빠른 전사: 실시간 오디오보다 동기적으로 훨씬 빠르게 결과를 반환하여 오디오 파일을 전사합니다. 빠른 오디오 또는 비디오 전사 또는 비디오 번역과 같은 예측 가능한 대기 시간으로 가능한 한 빨리 오디오 녹음의 대본이 필요한 시나리오에서 빠른 전사 API(/speechtotext/transcriptions:transcribe)를 사용합니다.
  • 사용자 지정 음성: 사용자 고유의 데이터를 업로드하고, 사용자 지정 모델을 테스트 및 학습하고, 모델 간의 정확도를 비교하고, 모델을 사용자 지정 엔드포인트에 배포합니다. 동료가 빌드한 모델에 액세스할 수 있도록 하려거나 모델을 둘 이상의 지역에 배포하려는 경우 모델을 다른 구독에 복사합니다.
  • 일괄 처리 전사: 오디오 파일을 여러 URL 또는 Azure 컨테이너의 일괄 처리로 전사합니다.

음성 텍스트 변환 REST API에는 다음과 같은 기능이 포함되어 있습니다.

  • 해당 엔드포인트에 대한 로그가 요청된 경우 각 엔드포인트에 대한 로그를 가져옵니다.
  • 만드는 모델의 매니페스트를 요청하여 온-프레미스 컨테이너를 설정합니다.
  • SAS(공유 액세스 서명) URI를 사용하여 Azure 스토리지 계정에서 데이터를 업로드합니다.
  • 사용자 고유의 스토리지 가져오기. 로그, 대화 내용 기록 파일, 기타 데이터에 사용자 고유의 스토리지 계정을 사용합니다.
  • 일부 작업은 webhook 알림을 지원합니다. 알림이 전송되는 webhook를 등록할 수 있습니다.

일괄 처리 기록

다음 작업 그룹은 일괄 처리 전사에 적용할 수 있습니다.

작업 그룹 설명
Models 기본 모델 또는 사용자 지정 모델을 사용하여 오디오 파일을 전사합니다.

사용자 지정 음성 및 일괄 처리 전사와 함께 모델을 사용할 수 있습니다. 예를 들어 특정 데이터 세트로 학습시킨 모델을 사용하여 오디오 파일을 전사할 수 있습니다. 사용자 지정 음성 모델을 학습하고 관리하는 방법에 대한 예제는 모델 학습 및 사용자 지정 음성 모델 수명 주기를 참조하세요.
사본 전사를 사용하여 스토리지에 많은 양의 오디오를 기록합니다.

일괄 처리 기록을 사용하는 경우 요청당 여러 파일을 보내거나 기록할 오디오 파일이 있는 Azure Blob Storage 컨테이너를 가리킵니다. 여러 오디오 파일에서 전사를 만드는 방법에 대한 예제는 전사 만들기를 참조하세요.
웹후크 웹 후크를 사용하여 생성, 처리, 완료 및 삭제 이벤트에 대한 알림을 받습니다.

사용자 지정 음성 및 일괄 처리 전사와 함께 웹 후크를 사용할 수 있습니다. 웹 후크는 데이터 세트, 엔드포인트, 평가, 모델전사에 적용됩니다.

사용자 지정 음성

다음 작업 그룹은 사용자 지정 음성적용할 수 있습니다.

작업 그룹 설명
데이터 세트 데이터 세트를 사용하여 사용자 지정 음성 모델을 학습하고 테스트합니다.

예를 들어 특정 데이터 세트로 학습된 사용자 지정 음성성능을 다른 데이터 세트로 학습된 기본 모델 또는 사용자 지정 음성 모델의 성능과 비교할 수 있습니다. 데이터 세트를 업로드하는 방법의 예는 학습 및 테스트 데이터 세트 업로드를 참조하세요.
엔드포인트 엔드포인트에 사용자 지정 음성 모델을 배포합니다.

사용자 지정 음성 모델을 사용하려면 사용자 지정 엔드포인트를 배포해야 합니다. 배포 엔드포인트를 관리하는 방법에 대한 예제는 모델 배포를 참조하세요.
평가 평가를 사용하여 다양한 모델의 성능을 비교합니다.

예를 들어 특정 데이터 세트로 학습된 사용자 지정 음성 모델의 성능을 다른 데이터 세트로 학습된 기본 모델 또는 사용자 지정 모델의 성능과 비교할 수 있습니다. 사용자 지정 음성 모델을 테스트하고 평가하는 방법의 예는 테스트 인식 품질 및 테스트 정확도를 참조하세요.
Models 기본 모델 또는 사용자 지정 모델을 사용하여 오디오 파일을 전사합니다.

사용자 지정 음성 및 일괄 처리 전사와 함께 모델을 사용할 수 있습니다. 예를 들어 특정 데이터 세트로 학습시킨 모델을 사용하여 오디오 파일을 전사할 수 있습니다. 사용자 지정 음성 모델을 학습하고 관리하는 방법에 대한 예제는 모델 학습 및 사용자 지정 음성 모델 수명 주기를 참조하세요.
프로젝트 프로젝트를 사용하여 사용자 지정 음성 모델, 데이터 세트 학습 및 테스트 및 배포 엔드포인트를 관리합니다.

사용자 지정 음성 프로젝트에 는 모델, 학습 및 테스트 데이터 세트 및 배포 엔드포인트가 포함됩니다. 각 프로젝트는 로캘과 관련이 있습니다. 예를 들어 미국 영어에 대한 프로젝트를 만들 수 있습니다. 프로젝트를 만드는 방법에 대한 예제는 프로젝트 만들기를 참조하세요.
웹후크 웹 후크를 사용하여 생성, 처리, 완료 및 삭제 이벤트에 대한 알림을 받습니다.

사용자 지정 음성 및 일괄 처리 전사와 함께 웹 후크를 사용할 수 있습니다. 웹 후크는 데이터 세트, 엔드포인트, 평가, 모델전사에 적용됩니다.

서비스 상태

서비스 상태 서비스 및 하위 구성 요소의 전반적인 상태에 대한 인사이트를 제공합니다. 자세한 내용은 Service Health를 참조하세요.

다음 단계