음성 도우미란?
개발자는 Speech Service와 함께 음성 도우미를 사용하여 애플리케이션과 환경에 맞게 자연스럽고 인간과 유사한 대화형 인터페이스를 만들 수 있습니다. 음성 도우미 서비스는 디바이스와 도우미 구현 간에 빠르고 안정적인 상호 작용을 제공합니다.
도우미 솔루션 선택
음성 도우미를 만드는 첫 번째 단계는 원하는 작업을 결정하는 것입니다. Speech Service는 도우미 상호 작용을 만들기 위한 여러 보완 솔루션을 제공합니다. 애플리케이션에서 "시애틀에 가야 합니다." 또는 "주문할 수 있는 피자 종류"와 같은 문구가 포함된 개방형 대화를 지원할 수 있습니다.
Speech SDK를 사용하여 음성 도우미를 빌드하기 위한 참조 아키텍처
핵심 기능
사용자 지정 키워드를 선택하든 다른 솔루션을 선택하여 도우미 상호 작용을 만들든 다양한 사용자 지정 기능을 사용하여 브랜드, 제품 및 개성에 대한 도우미를 사용자 지정할 수 있습니다.
범주 | 기능 |
---|---|
사용자 지정 키워드 | 사용자는 "Hey Contoso"와 같은 사용자 지정 키워드를 통해 도우미와의 대화를 시작할 수 있습니다. 앱은 Speech SDK에서 사용자 지정 키워드 엔진을 통해 이 작업을 수행하며 사용자 지정 키워드 시작으로 이동하여 구성할 수 있습니다. 음성 도우미는 서비스 측 키워드 확인을 사용하여 키워드 활성화의 정확성을 향상시킬 수 있습니다(디바이스만 사용하는 경우와 비교). |
음성 텍스트 변환 | 음성 도우미는 Speech Service의 음성 텍스트 변환을 사용하여 실시간 오디오를 인식된 텍스트로 변환합니다. 이 텍스트는 전사된 대로 도우미 구현과 클라이언트 애플리케이션 모두에서 사용할 수 있습니다. |
텍스트 음성 변환 | 도우미의 텍스트 응답은 Speech Service의 텍스트 음성 변환을 통해 합성됩니다. 이 합성은 클라이언트 애플리케이션에서 오디오 스트림으로 사용할 수 있습니다. Microsoft는 브랜드에 음성을 제공하는 고유한 사용자 지정 고품질 인공신경망 TTS(인공신경망 텍스트 음성 변환) 음성을 구축할 수 있는 기능을 제공합니다. |
샘플 코드 및 자습서
음성 도우미를 만들기 위한 샘플 코드는 Azure-Samples/Cognitive-Services-Voice-Assistant의 GitHub에서 사용할 수 있습니다.
사용자 지정
Speech Service를 사용하여 빌드하는 음성 도우미는 전체 범위의 사용자 지정 옵션을 사용할 수 있습니다.
참고 항목
사용자 지정 옵션은 언어 및 로캘에 따라 다릅니다. 자세한 내용은 지원되는 언어를 참조하세요.