Speech Studio란?
Speech Studio는 Azure AI 음성 서비스의 기능을 애플리케이션에 구축하고 통합하기 위한 UI 기반 도구 세트입니다. 코드 없는 방식을 사용하여 Speech Studio에서 프로젝트를 만든 다음, Speech SDK, Speech CLI 또는 REST API를 사용하여 애플리케이션에서 해당 자산을 참조합니다.
팁
코드를 등록하거나 작성하지 않고 Azure AI Foundry 포털에서 음성 텍스트 변환 및 텍스트 음성 변환을 시도할 수도 있습니다.
Speech Studio 시나리오
몇 가지 일반적인 사용 사례에 대한 샘플 코드를 탐색하고 시도하고 봅니다.
캡션: 실시간 또는 오프라인으로 처리된 캡션 결과를 보려면 샘플 동영상 클립을 선택합니다. 캡션을 입력 오디오와 동기화하고, 욕설 필터를 적용하고, 부분 결과를 얻고, 사용자 지정을 적용하고, 다국어 시나리오에 대해 음성 언어를 식별하는 방법이 포함됩니다. 자세한 내용은 캡션 빠른 시작을 참조하세요.
콜 센터: 언어 및 Speech Services를 사용하여 콜 센터 대화를 분석하는 방법에 대한 데모를 봅니다. 실시간으로 통화를 기록하거나 일괄 처리하고, 개인 식별 정보를 수정하고, 감정과 같은 인사이트를 추출하여 콜 센터 사용 사례에 도움이 됩니다. 자세한 내용은 콜 센터 빠른 시작을 참조하세요.
Speech Studio에서 이러한 시나리오를 시연하려면 이 소개 동영상을 참조하세요.
Speech Studio 기능
다음 Speech Service 기능은 Speech Studio에서 프로젝트 형식으로 사용할 수 있습니다.
실시간 음성 텍스트 변환: 코드를 사용하지 않고 오디오 파일을 여기로 끌어서 음성 텍스트 변환으로 빠르게 테스트합니다. Speech Studio에는 오디오 샘플에서 음성 텍스트 변환 작동 방식을 확인할 수 있는 데모 도구가 있습니다. 전체 기능을 탐색하려면 음성 텍스트 변환이란을 참조하세요.
음성 텍스트 변환 일괄처리: 스토리지에서 대량의 오디오 대화 내용 기록을 하고 비동기적으로 결과를 수신하는 일괄처리 대화 내용 기록 기능을 신속하게 테스트화 합니다. 음성 텍스트 변환 일괄처리에 대한 자세한 내용은 음성 텍스트 변환 일괄처리 개요를 참조하세요.
사용자 지정 음성: 특정 어휘 집합 및 말하기 스타일에 맞게 조정된 음성 인식 모델을 만듭니다. 기본 음성 인식 모델과 달리 사용자 지정 음성 모델은 공개적으로 액세스할 수 없기 때문에 고유한 경쟁 우위의 일부가 됩니다. 샘플 오디오 업로드를 시작하여 사용자 지정 음성 모델을 만들려면 학습 및 테스트 데이터 세트 업로드를 참조하세요.
발음 평가: 음성 발음을 평가하고 음성 오디오의 정확도와 능숙도에 대한 피드백을 발표자에게 제공합니다. Speech Studio는 코드 없이 이 기능을 신속하게 테스트하기 위한 샌드박스를 제공합니다. 애플리케이션에서 Speech SDK와 함께 기능을 사용하려면 발음 평가 문서를 참조하세요.
음성 번역: 짧은 대기 시간으로 음성을 빠르게 테스트하고 선택한 다른 언어로 번역합니다. 전체 기능을 탐색하려면 음성 번역이란을 참조하세요.
음성 갤러리: 자연스럽게 말하는 앱 및 서비스를 빌드합니다. 광범위한 언어, 음성 및 변형 포트폴리오 중에서 선택합니다. 표현력이 높고 인간과 같은 인공신경망 음성을 사용하여 시나리오를 실현합니다.
사용자 지정 음성: 텍스트 음성 변환에 대한 한 가지 종류의 사용자 지정 음성을 만듭니다. 오디오 파일을 제공하고 Speech Studio에 일치하는 대화 내용 기록을 만든 다음, 애플리케이션에서 사용자 지정 음성을 사용합니다. 엔드포인트를 통해 사용자 지정 음성을 만들고 사용하려면 음성 모델 만들기 및 사용을 참조하세요.
오디오 콘텐츠 만들기: 텍스트 음성 변환 합성을 위한 코드 없는 방식입니다. 출력 오디오를 있는 그대로 사용하거나 추가 사용자 지정을 위한 시작점으로 사용할 수 있습니다. 오디오북, 뉴스 브로드캐스트, 동영상 내레이션, 챗봇 등 다양한 시나리오에 대해 매우 자연스러운 오디오 콘텐츠를 빌드할 수 있습니다. 자세한 콘텐츠는 오디오 콘텐츠 만들기 설명서를 참조하세요.
사용자 지정 키워드: 사용자 지정 키워드는 제품을 음성으로 활성화하는 데 사용할 수 있는 단어 또는 짧은 구입니다. Speech Studio에서 사용자 지정 키워드를 만든 다음, 애플리케이션에서 Speech SDK와 함께 사용할 이진 파일을 생성합니다.