Azure AI Foundry 포털의 발음 평가

아티클
09/23/2024

Important

이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

발음 평가는 음성 텍스트 변환 기능을 사용하여 언어 학습자에게 주관적이고 객관적인 피드백을 제공합니다. 발음을 연습하고 피드백을 적시에 받는 것은 언어 능력을 향상시키는 데 필수적입니다. 숙련된 교사가 진행하는 평가에는 많은 시간과 노력이 소요될 수 있으며, 학습자에게는 고품질 평가 비용이 많이 듭니다. 발음 평가는 언어 평가를 더 매력적으로 만들고 모든 배경의 학습자가 액세스할 수 있도록 하는 데 도움이 될 수 있습니다.

참고 항목

발음 평가의 가용성에 대한 자세한 내용은 지원되는 언어 및 사용 가능한 지역을 참조하세요.

이 문서에서는 AI Foundry를 통해 코드를 작성하지 않고 발음 평가 도구를 사용하는 방법을 설명합니다. 음성 애플리케이션에 발음 평가를 통합하는 방법에 대한 자세한 내용은 발음 평가를 사용하는 방법을 참조하세요.

읽기 및 말하기 시나리오

발음 평가에는 읽기와 말하기의 두 가지 시나리오가 있습니다.

읽기: 이 시나리오는 스크립팅된 평가를 위해 설계되었습니다. 학습자는 지정된 텍스트를 읽어야 합니다. 참조 텍스트는 미리 제공됩니다.
말하기: 이 시나리오는 스크립팅되지 않은 평가를 위해 설계되었습니다. 학습자는 지정된 토픽에 관해 이야기해야 합니다. 참조 텍스트는 미리 제공되지 않습니다.

스크립팅된 평가 수행

다음 단계에 따라 참조 텍스트의 발음을 평가합니다.

AI Foundry에서 발음 평가로 이동합니다.
읽기 탭에서 발음을 평가하려는 지원되는 언어를 선택합니다.
프로비전된 텍스트 샘플을 사용하거나 고유한 스크립트를 입력할 수 있습니다.

텍스트를 읽을 때 녹음되는 음성이 너무 낮지 않도록 마이크에 가까이 있어야 합니다.

그렇지 않으면 발음 평가를 위해 녹음된 오디오를 업로드할 수 있습니다. 성공적으로 업로드되면 다음 스크린샷과 같이 오디오가 시스템에 의해 자동으로 평가됩니다.

스크립팅되지 않은 평가 수행

스크립팅되지 않은 평가를 수행하려면 말하기 탭을 선택합니다. 이 기능을 사용하면 참조 텍스트를 미리 제공하지 않고도 스크립팅되지 않은 평가를 수행할 수 있습니다. 진행 방법은 다음과 같습니다.

AI Foundry에서 발음 평가로 이동합니다.
말하기 탭에서 발음을 평가하려는 지원되는 언어를 선택합니다.
다음으로, 제공된 샘플 토픽 중에서 선택하거나 고유의 토픽을 입력할 수 있습니다. 이 선택을 통해 미리 정의된 스크립트 없이 특정 주체에 대해 말할 수 있는 기능을 평가할 수 있습니다.

발음 평가를 위해 음성을 녹음할 때 녹음 시간이 권장 범위인 15초(50단어 이상 상당)~10분 내에 있는지 확인해야 합니다. 이 시간 범위가 음성 콘텐츠를 정확하게 평가하는 데 최적입니다. 토픽 점수를 받으려면 음성 오디오에 최소한 세 개의 문장이 포함되어야 합니다.

발음 평가를 위해 녹음된 오디오를 업로드할 수도 있습니다. 성공적으로 업로드되면 시스템에서 오디오를 자동으로 평가합니다.

발음 평가 결과

음성을 녹음하거나 녹음된 오디오를 업로드하면 평가 결과가 출력됩니다. 결과에는 음성 오디오와 음성 평가에 대한 피드백이 포함됩니다. 음성 오디오를 듣고 필요한 경우 다운로드할 수 있습니다.

또한 발음 평가 결과를 JSON에서 확인할 수 있습니다. 단어 수준, 음절 수준 및 음소 수준 정확성 점수는 JSON 파일에 포함됩니다.

표시
JSON

음성에 대한 대본 및 피드백을 포함하는 표시 창의 평가 결과를 보여주는 스크린샷.

오류 유형에 따라 단어가 강조 표시됩니다. 발음 평가의 오류 유형은 다양한 색상을 사용하여 표시됩니다. 이러한 시각적 구별을 통해 특정 오류를 더 쉽게 식별하고 분석할 수 있습니다. 음성 오디오의 오류 유형과 빈도에 대한 명확한 개요를 제공하므로 개선이 필요한 영역에 집중할 수 있습니다. 각 오류 유형을 켜거나 꺼서 특정 오류 유형에 집중하거나 특정 유형을 디스플레이에서 제외할 수 있습니다. 이 기능은 음성 오디오의 오류를 검토하고 분석하는 방법에 유연성을 제공합니다. 마우스로 각 단어 위를 가리키면 전체 단어 또는 특정 음소에 대한 정확성 점수를 볼 수 있습니다.

평가 결과 하단에는 채점 결과가 표시됩니다. 스크립팅된 발음 평가의 경우 발음 점수(정확도 점수, 유창성 점수, 완전성 점수, 운율 점수 포함)만 제공됩니다. 스크립팅된 발음 평가의 경우 발음 점수(정확도 점수, 유창성 점수, 운율 점수 포함)와 콘텐츠 점수(어휘 점수, 문법 점수, 토픽 점수 포함)가 모두 표시됩니다.

완전한 대화 내용 기록은 text 특성에 표시됩니다. 전체 단어, 음절 및 특정 음소에 대한 정확성 점수를 볼 수 있습니다. Speech SDK를 사용하여 동일한 결과를 얻을 수 있습니다. 자세한 내용은 발음 평가를 사용하는 방법을 참조하세요.

{
    "text": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
    "duration": 156100000,
    "offset": 800000,
    "json": {
        "Id": "f583d7588c89425d8fce76686c11ed12",
        "RecognitionStatus": 0,
        "Offset": 800000,
        "Duration": 156100000,
        "DisplayText": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
        "SNR": 40.47014,
        "NBest": [
            {
                "Confidence": 0.97532314,
                "Lexical": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "ITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "MaskedITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "Display": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
                "PronunciationAssessment": {
                    "AccuracyScore": 92,
                    "FluencyScore": 81,
                    "CompletenessScore": 93,
                    "PronScore": 85.6
                },
                "Words": [
                    // Words preceding "countryside" are omitted for brevity...
                    {
                        "Word": "countryside",
                        "Offset": 66200000,
                        "Duration": 7900000,
                        "PronunciationAssessment": {
                            "AccuracyScore": 30,
                            "ErrorType": "Mispronunciation"
                        },
                        "Syllables": [
                            {
                                "Syllable": "kahn",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 3
                                },
                                "Offset": 66200000,
                                "Duration": 2700000
                            },
                            {
                                "Syllable": "triy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 19
                                },
                                "Offset": 69000000,
                                "Duration": 1100000
                            },
                            {
                                "Syllable": "sayd",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 51
                                },
                                "Offset": 70200000,
                                "Duration": 3900000
                            }
                        ],
                        "Phonemes": [
                            {
                                "Phoneme": "k",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 66200000,
                                "Duration": 900000
                            },
                            {
                                "Phoneme": "ah",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 67200000,
                                "Duration": 1000000
                            },
                            {
                                "Phoneme": "n",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 11
                                },
                                "Offset": 68300000,
                                "Duration": 600000
                            },
                            {
                                "Phoneme": "t",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 16
                                },
                                "Offset": 69000000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "r",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 27
                                },
                                "Offset": 69400000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "iy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 15
                                },
                                "Offset": 69800000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "s",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 26
                                },
                                "Offset": 70200000,
                                "Duration": 1700000
                            },
                            {
                                "Phoneme": "ay",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 56
                                },
                                "Offset": 72000000,
                                "Duration": 1300000
                            },
                            {
                                "Phoneme": "d",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 100
                                },
                                "Offset": 73400000,
                                "Duration": 700000
                            }
                        ]
                    },
                    // Words following "countryside" are omitted for brevity...
                ]
            }
        ]
    }
}

발음 평가의 세분성

발음 평가는 다양한 평가 결과를 개별 음소에서 전체 텍스트 입력에 이르기까지 다양한 세분성으로 제공합니다.

전체 텍스트 수준에서 발음 평가는 추가 유창성, 완전성 및 운율 점수를 제공합니다. 유창성은 음성이 원어민의 단어 사이 묵음 중지 사용과 얼마나 밀접하게 일치하는지를 나타냅니다. 완전성은 참조 텍스트 입력에 대한 음성에서 발음되는 단어 수를 나타냅니다. 운율은 화자가 음성에서 자연스러움, 표현력, 전반적인 운율 요소를 얼마나 잘 전달하는지를 나타냅니다. 그런 다음 정확도, 유창함, 완전성 및 운율을 합산한 전체 점수가 주어져 해당 음성의 전반적인 발음 품질을 나타냅니다. 발음 평가에서는 전체 텍스트 수준의 콘텐츠 점수(어휘, 문법, 토픽)도 제공합니다.
단어 수준에서 발음 평가는 자동으로 큐 잘못 받기를 감지하고 정확성 점수를 동시에 제공하여 지정된 음성의 누락, 반복, 삽입 및 잘못된 발음에 대한 자세한 정보를 제공합니다.
음절 수준 정확도 점수는 현재 JSON 파일 또는 Speech SDK를 통해 사용할 수 있습니다.
음소 수준에서 발음 평가는 각 음소의 정확성 점수를 제공하여 학습자가 음성의 발음 세부 정보를 더 잘 이해할 수 있도록 지원합니다.

AI Foundry의 발음 평가 기능에는 정확도, 유창성 및 완전성의 기준 점수 외에도 음성 성능 및 이해의 다양한 측면에 대한 자세한 피드백을 제공하는 보다 포괄적인 점수가 포함되어 있습니다. 강화 점수는 운율 점수, 어휘 점수, 문법 점수, 토픽 점수로 구성됩니다. 이 점수는 음성 운율, 어휘 사용, 문법 정확성 및 토픽 이해에 대한 귀중한 인사이트를 제공합니다.

AI Foundry의 전체 발음 점수 및 전체 콘텐츠 점수 스크린샷

평가 결과 하단에는 발음 점수와 콘텐츠 점수라는 두 가지 전체 점수가 표시됩니다. 읽기 탭에는 발음 점수가 표시됩니다. 말하기 탭에는 발음 점수와 콘텐츠 점수가 모두 표시됩니다.

발음 점수: 이 점수는 발음 품질에 대한 종합 평가를 나타내며 4가지 하위 측면을 포함합니다. 이 점수는 스크립팅된 평가와 스크립팅되지 않은 평가 모두에 대한 읽기 및 말하기 탭에서 모두 사용할 수 있습니다.

정확도 점수: 발음의 정확도를 평가합니다.
유창성 점수: 말하기의 부드러움과 자연스러움의 수준을 측정합니다.
완전성 점수: 올바르게 발음된 단어 수를 반영합니다.
운율 점수: 적절한 억양, 리듬 및 강세의 사용을 평가합니다. 예기치 않은 중단, 누락된 중단 및 모노톤과 같은 운율 평가와 관련된 몇 가지 추가 오류 유형이 도입되었습니다. 이러한 오류 유형은 이전 엔진에 비해 발음 오류에 대한 더 자세한 정보를 제공합니다.

콘텐츠 점수: 이 점수는 음성 콘텐츠에 대한 종합적인 평가를 제공하며 세 가지 하위 측면을 포함합니다. 이 점수는 스크립팅되지 않은 평가의 말하기 탭에서만 사용할 수 있습니다.

어휘 점수: 화자가 아이디어를 정확하게 표현하기 위해 지정된 컨텍스트 내에서 단어를 효과적으로 사용하는지, 단어의 적절성과 어휘 복잡성 수준을 평가합니다.
문법 점수: 문법 사용의 정확성과 다양한 문장 패턴을 평가합니다. 어휘 정확도, 문법 정확도, 문장 구조의 다양성 등을 고려하여 언어 능력을 보다 종합적으로 평가합니다.
토픽 점수: 음성에서 토론된 토픽에 대한 이해도와 참여도를 평가합니다. 지정된 토픽과 관련된 생각과 아이디어를 효과적으로 표현하는 화자의 능력을 평가합니다.

이러한 전체 점수는 발음과 콘텐츠 모두에 대한 포괄적인 평가를 제공하여 학습자에게 말하기 능력 및 이해의 다양한 측면에 대한 귀중한 피드백을 제공합니다. 이러한 개선된 기능을 통해 언어 학습자는 발음과 콘텐츠 식 모두에서 장점과 개선이 필요한 영역에 대한 심층적인 인사이트를 얻을 수 있습니다.

참고 항목

콘텐츠 및 운율 평가는 en-US 로캘에서만 사용할 수 있습니다.

스트리밍 모드의 평가 점수

발음 평가는 중단 없는 스트리밍 모드를 지원합니다. AI Foundry 데모를 사용하면 평가를 위해 스트리밍 모드에서 최대 60분 동안 녹화할 수 있습니다. 기록 중지 단추를 누르지 않는 한 평가 프로세스가 완료되지 않으며 평가를 편리하게 일시 중지하고 다시 시작할 수 있습니다.

발음 평가는 발음의 여러 측면을 평가합니다. 평가 결과의 맨 아래에서 발음 점수를 4개의 하위 측면(정확도 점수, 유창성 점수. 완전도 점수 및 운율 점수)을 포함하는 집계된 전체 점수로 볼 수 있습니다. 스트리밍 모드에서는 정확도 점수, Fluency 점수 및 Prosody 점수가 기록 프로세스 전반에 걸쳐 시간에 따라 달라지므로 AI Foundry에서 평가가 끝나기 전에 대략적인 전체 점수를 증분 방식으로 표시하는 방법을 보여 줍니다. 이는 정확도 점수, Fluency 점수 및 Prosody 점수에만 가중치가 적용됩니다. 완전성 점수는 중지 단추를 누른 후 평가가 종료된 시점에만 계산되므로 최종 발음 전체 점수는 정확도 점수, 유창성 점수, 완전성 점수, 운율 점수를 가중치로 합산합니다.

스트리밍 모드에서 발음을 평가하는 전체 프로세스는 아래 데모 예제를 참조하세요.

녹화 시작

녹화를 시작하면 아래쪽의 점수가 0에서 변경되기 시작합니다.

녹음 중

긴 단락을 녹음하는 동안 언제든지 녹음을 일시 중지할 수 있습니다. 중지 단추를 누르지 않는 한 녹음/녹화를 계속 평가할 수 있습니다.

녹음/녹화 완료

중지 단추를 누르면 아래쪽에서 발음 점수, 정확도 점수, 유창성 점수, 완전성 점수 및 운율 점수를 확인할 수 있습니다.

가격 책정

기본적으로 발음 평가 사용 비용은 종량제 또는 약정 계층 가격 책정에 대한 음성 텍스트 변환 비용과 동일합니다. 음성을 텍스트로 변환하기 위한 약정 계층을 구매하는 경우 발음 평가 비용은 약정을 충족하는 데 사용됩니다.

발음 평가 기능은 기본 음성 텍스트 변환 가격에 포함되지 않은 기타 점수(운율, 문법, 토픽 및 어휘)도 제공합니다. 이러한 점수는 기본 음성 텍스트 변환 가격보다 높은 추가 요금으로 제공됩니다. 가격 책정에 대한 자세한 내용은 음성 텍스트 변환 가격 책정을 참조하세요.

다음은 사용 가능한 발음 평가 점수 표입니다. 스크립팅되거나 스크립팅되지 않은 평가에서 사용할 수 있는지 여부, 기본 음성 텍스트 변환 가격 또는 추가 기능 가격에 포함되는지 여부를 확인합니다.

점수	스크립팅된 경우 및 스크립팅되지 않은 경우	기본 음성 텍스트 변환 가격에 포함되어 있나요?
정확도	스크립팅된 경우 및 스크립팅되지 않은 경우	예
유창성	스크립팅된 경우 및 스크립팅되지 않은 경우	예
완결성	스크립팅됨	예
실수	스크립팅된 경우 및 스크립팅되지 않은 경우	예
운율	스크립팅된 경우 및 스크립팅되지 않은 경우	아니요
문법	스크립팅되지 않은 경우만	아니요
항목	스크립팅되지 않은 경우만	아니요
단어의	스크립팅되지 않은 경우만	아니요

책임 있는 AI

AI 시스템에는 기술뿐만 아니라 이를 사용하는 사람, 영향을 받는 사람, 배포되는 환경도 포함됩니다. 시스템에서의 책임 있는 AI 사용 및 배포에 대해 알아보려면 투명성 참고 사항을 읽어보세요.

다음 단계

Speech SDK를 사용한 발음 평가 사용
사용 사례에 대한 블로그 참조

다음을 통해 공유