你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

测试模型

项目
09/03/2024

成功训练模型后，可以使用翻译来评估模型的质量。若要针对是使用标准模型还是自定义模型做出明智的决策，应评估自定义模型 BLEU 分数和标准模型基线 BLEU之间的差异。如果模型是基于狭窄领域训练的，并且训练数据与测试数据一致，预计可以得到较高的 BLEU 分数。

BLEU 分数

BLEU（双语评估替补）是一种算法，用于评估从一种语言机器翻译成另一种语言的文本的精确度或准确度。自定义翻译器使用 BLEU 指标作为传达翻译准确性的一种方式。

BLEU 分数是一个 0 到 100 之间的数字。 0 分表示翻译质量低，翻译中没有任何内容与引用匹配。 100 分表示翻译与引用完全一致。不需要达到 100 分 - BLEU 分数在 40 到 60 之间表明翻译质量高。

了解详细信息

模型详细信息

选择“模型详细信息”边栏选项卡。
选择模型名称。查看训练日期/时间、总训练时间，以及用于训练、优化、测试和字典的语句数。检查系统是否生成了测试集和优化集。使用 Category ID 来发出翻译请求。
评估模型 BLEU 分数。查看测试集：“BLEU 分数”是自定义模型分数，而“基线 BLEU”是用于自定义的预先训练的基线模型。较高的 BLEU 分数意味着使用自定义模型的翻译质量较高。

测试模型翻译的质量

选择“测试模型”边栏选项卡。
选择模型名称。
根据参考（测试集中的目标翻译）人工评估来自自定义模型和基线模型（用于自定义的预训练基线）的翻译。
如果训练结果令人满意，可以针对训练的模型下达部署请求。

后续步骤

了解如何发布/部署自定义模型。
了解如何使用自定义模型翻译文档。