你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure AI Foundry 门户中的发音评估

项目
03/10/2025

重要

本文中标记了“（预览版）”的项目目前为公共预览版。此预览版未提供服务级别协议，不建议将其用于生产工作负载。某些功能可能不受支持或者受限。有关详细信息，请参阅 Microsoft Azure 预览版补充使用条款。

发音评估使用语音转文本功能为语言学习者提供主观和客观的反馈。练习发音时及时获得反馈对于提高语言技能至关重要。由经验丰富的教师推动的评估可能需要花费大量时间和精力，并且对学习者而言，高质量的评估成本很高。发音评估有助于使语言评估对所有背景的学习者都更具吸引力和更易使用。

注意

有关发音评估的可用性的信息，请参阅支持的语言和可用性区域。

本文介绍如何在不编写任何代码的情况下通过 Azure AI Foundry 门户使用发音评估工具。有关如何在语音应用程序中集成发音评估的信息，请参阅如何使用发音评估。

阅读场景和口语场景

对于发音评估，有两种场景：阅读和口语。

阅读：该场景专为脚本化评估而设计。它要求学习者阅读给定文本。会提前提供参考文本。
口语：该场景专为未脚本化评估而设计。它要求学习者就给定主题发言。不会提前提供参考文本。

执行脚本化评估

请遵循以下步骤访问参考文本的发音：

转到 Azure AI Foundry 门户中的发音评估。
在“阅读”选项卡上，选择要评估发音的受支持语言。
可使用预配的文本示例，也可输入自己的脚本。

阅读文本时，应靠近麦克风，以确保录制的声音不会太低。

否则，可上传录制的音频以进行发音评估。成功上传后，系统会自动评估音频，如下图所示。

执行未脚本化评估

如果要执行未脚本化评估，请选择“口语”选项卡。该功能可以在没有提前提供参考文本的情况下执行非脚本评估。以下将说明如何继续：

转到 Azure AI Foundry 门户中的发音评估。
在“口语”选项卡上，选择要评估发音的受支持语言。
接下来，可以从所提供的示例主题中进行选择，也可输入你自己的主题。这种选择让你能够评估自身在没有预定义脚本的情况下就给定主题发言的能力。

录制语音以进行发音评估时，请务必确保录制时间介于建议的 15 秒（相当于 50 个以上的单词）至 10 分钟之间。要准确评估语音的内容，这个时间范围是最合适的。要获得主题分数，口语音频应包含至少 3 个句子。

还可上传录制的音频来进行发音评估。成功上传后，系统会自动评估音频。

发音评估结果

录制语音或上传录制好的音频后，会输出“评估结果”。结果包括口语音频以及对语音评估的反馈。可收听口语音频，并在必要时下载。

还可查看 JSON 格式的发音评估结果。 JSON 文件中包含单词级别、音节级别和音素级别的准确度分数。

显示器
JSON

屏幕截图显示显示窗口中的评估结果，其中包括语音的脚本和反馈。

单词将根据错误类型高亮显示。发音评估中的错误类型使用不同的颜色表示。借助这种视觉区别，可以更容易地发现和分析特定错误。通过它可以清楚地了解语音中错误类型和频率的总体情况，帮助你专注于需要改进的领域。可打开/关闭每个错误类型，以着重关注特定类型的错误或者不显示特定类型。此功能为你如何查看和分析口语音频中的错误提供了灵活性。将鼠标悬停在每个单词上时，可查看整个单词或特定音素的准确度得分。

在评估结果的底部将显示评分结果。脚本化发音评估只提供发音分数（包括准确度分数、流畅度分数、完整性分数和韵律分数）。非脚本化发音评估将显示发音分数（包括准确度分数、流畅度分数和韵律分数）和内容分数（包括词汇分数、语法分数和主题分数）。

完整的听录显示在 text 属性中。你可以查看整个单词、音节和特定音素的准确度分数。可使用语音 SDK 获得相同的结果。有关信息，请参阅如何使用发音评估。

{
    "text": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
    "duration": 156100000,
    "offset": 800000,
    "json": {
        "Id": "f583d7588c89425d8fce76686c11ed12",
        "RecognitionStatus": 0,
        "Offset": 800000,
        "Duration": 156100000,
        "DisplayText": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
        "SNR": 40.47014,
        "NBest": [
            {
                "Confidence": 0.97532314,
                "Lexical": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "ITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "MaskedITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "Display": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
                "PronunciationAssessment": {
                    "AccuracyScore": 92,
                    "FluencyScore": 81,
                    "CompletenessScore": 93,
                    "PronScore": 85.6
                },
                "Words": [
                    // Words preceding "countryside" are omitted for brevity...
                    {
                        "Word": "countryside",
                        "Offset": 66200000,
                        "Duration": 7900000,
                        "PronunciationAssessment": {
                            "AccuracyScore": 30,
                            "ErrorType": "Mispronunciation"
                        },
                        "Syllables": [
                            {
                                "Syllable": "kahn",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 3
                                },
                                "Offset": 66200000,
                                "Duration": 2700000
                            },
                            {
                                "Syllable": "triy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 19
                                },
                                "Offset": 69000000,
                                "Duration": 1100000
                            },
                            {
                                "Syllable": "sayd",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 51
                                },
                                "Offset": 70200000,
                                "Duration": 3900000
                            }
                        ],
                        "Phonemes": [
                            {
                                "Phoneme": "k",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 66200000,
                                "Duration": 900000
                            },
                            {
                                "Phoneme": "ah",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 67200000,
                                "Duration": 1000000
                            },
                            {
                                "Phoneme": "n",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 11
                                },
                                "Offset": 68300000,
                                "Duration": 600000
                            },
                            {
                                "Phoneme": "t",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 16
                                },
                                "Offset": 69000000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "r",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 27
                                },
                                "Offset": 69400000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "iy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 15
                                },
                                "Offset": 69800000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "s",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 26
                                },
                                "Offset": 70200000,
                                "Duration": 1700000
                            },
                            {
                                "Phoneme": "ay",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 56
                                },
                                "Offset": 72000000,
                                "Duration": 1300000
                            },
                            {
                                "Phoneme": "d",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 100
                                },
                                "Offset": 73400000,
                                "Duration": 700000
                            }
                        ]
                    },
                    // Words following "countryside" are omitted for brevity...
                ]
            }
        ]
    }
}

发音评估的粒度

发音评估提供不同粒度（从单个音素到整个文本输入）的各种评估结果。

在全文级别，发音评估提供了额外的流畅性、完整性和韵律分数：“流畅性”表示语音与母语人士在单词之间使用无声间隔的匹配程度，“完整性”表示参考文本输入的语音中发音的单词数，“韵律”表示说话人在语音中表达自然、表现力和整体韵律元素的程度。然后，会根据准确度、流畅性、完整性和韵律综合得出一个整体分数，表明给定语音的整体语音质量。发音评估还在全文级别提供内容分数（词汇、语法和主题）。
在单词级别，发音评估可以自动检测错误并同时提供准确度分数，从而提供有关给定语音中的遗漏、重复、插入和错误发音的更详细信息。
音节级准确度分数目前通过 JSON 文件或语音 SDK 提供。
在音素层面，发音评估提供每个音素的准确度分数，帮助学习者更好地理解语音的发音细节。

除了准确度、流利性和完整性这三个基线分数外，Azure AI Foundry 中的发音评估功能还包括更全面的分数，可提供有关语音表现和理解各个方面的详细反馈。加强分数包括韵律分数、词汇分数、语法分数和主题分数。这些分数对语音韵律、词汇使用、语法正确性和主题理解提供了有价值的见解。

屏幕截图显示了 Azure AI Foundry 中的总体发音分数和总体内容分数。

在评估结果的底部，将显示两个整体分数：发音分数和内容分数。在“阅读”选项卡中，将找到显示的发音分数。在“口语”选项卡中，将显示发音分数和内容分数。

发音分数：这个分数表示对发音质量的综合评估，包括 4 个子方面。 “阅读”和“口语”选项卡中都提供了这些分数，用于脚本化评估和未脚本化评估。

准确度分数：评估发音的正确性。
流畅性分数：衡量语音的流畅程度和自然程度。
完整性分数：反映正确发音的单词数。
韵律分数：评估对语调、节奏和重音的恰当运用。引入了更多与韵律评估相关的错误类型，例如意外断句、缺少断句和语调单一。与以前的引擎相比，这些错误类型提供了有关发音错误的更详细信息。

内容分数：这个分数提供对语音内容的综合评估，包括 3 个子方面。这个分数只在“口语”选项卡中用于未脚本化评估。

“词汇分数”：评估说话人对单词的有效使用及其在给定上下文中准确表达想法的适当性，以及词汇的复杂程度。
语法分数：评估语法使用的正确性和句型的多样性。它考虑了词汇的准确性、语法的准确性和句子结构的多样性，从而更全面地评估语言能力。
主题分数：评估对语音中讨论的主题的理解程度和参与程度。它评估说话人有效表达与给定主题相关的思想和想法的能力。

这些整体分数对发音和内容提供了全面评估，为学习者提供了有关其语音表现和理解各个方面的宝贵反馈。使用这些增强功能，语言学习者可更深入地了解他们在发音和内容表达方面的优势以及需要改进的地方。

注意

内容和韵律评估仅在 en-US 区域设置中提供。

流式处理模式下的评估分数

发音评估支持不间断的流式处理模式。 Azure AI Foundry 演示允许在流式处理模式下进行最多 60 分钟的录制，以便进行评估。只要不按下停止录制按钮，评估过程就不会结束，你可以方便地暂停和恢复评估。

发音评估对发音的几个方面进行了评估。在“评估结果”的底部，可以看到“发音分数”显示为综合整体分数，它包含 4 个子方面：“准确度分数”、“流畅度分数”、“完整性分数”和“韵律分数”。在流式处理模式下，由于准确度分数、流利性得分和韵律分数在整个录制过程中会随时间而发生变化，因此我们在 Azure AI Foundry 中演示了一种方法，即在评估结束前以增量方式显示近似的总体分数，该分数只使用准确度分数、流利性得分和韵律分数加权计算。完整性分数只在评估结束时你按下停止按钮后进行计算，因此最终的发音整体分数根据准确度分数、流畅性分数、完整性分数和韵律分数加权汇总得出。

请参阅下面的演示示例，了解在流式处理模式下评估发音的整个过程。

开始录制

开始录制时，底部的分数将从 0 开始变化。

录制期间

在录制长段落期间，可以随时暂停录制。只要不按下停止按钮，就可以继续评估录制内容。

完成录制

按下停止按钮后，可以在底部看到发音分数、准确度分数、流畅性分数、完整性分数和韵律分数。

定价

基线是，无论是即用即付还是承诺层级定价，使用发音评估的费用与语音转文本的费用相同。如果你购买了语音转文本的承诺层级，则发音评估的支出将用于满足承诺使用量。

发音评估功能还提供基线语音转文本价格中未包括的其他分数：韵律、语法、主题和词汇。这些分数是基线语音转文本价格之上的附加费用。有关定价的信息，请参阅语音转文本定价。

下面的表格显示了可用的发音评估分数，而不管是在脚本化还是未脚本化评估中提供，也不管是包含在基线语音转文本价格中还是附加价格中。

分数	脚本化或未脚本化	包含在基线语音转文本价格中？
精确度	脚本化和未脚本化	是
流畅度	脚本化和未脚本化	是
完整性	已编写脚本	是
误读	脚本化和未脚本化	是
韵律	脚本化和未脚本化	否
语法	仅未脚本化	否
主题	仅未脚本化	否
词汇	仅未脚本化	否

负责任的 AI

AI 系统不仅包括技术，还包括使用它的人员、受其影响的人员以及部署它的环境。阅读透明度说明，了解如何在系统中负责任地使用和部署 AI。

后续步骤

使用使用语音 SDK 进行发音评估
阅读有关用例的博客

通过