你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是字典?

字典是一组对齐的文档,其中指定了短语或句子的列表及其对应的译文。 如果你希望翻译器使用字典中提供的译文来翻译源短语或句子的实例,可以在训练中使用字典。 字典有时称为词汇表或术语库。 可将字典视为所列的所有字词的强行“复制并替换”译法。 此外,Microsoft 自定义翻译器服务会构建并利用其自己的常规用途字典来提高翻译质量。 但是会优先使用客户提供的字典,会先搜索该词典来查找单词或句子。

字典仅适用于采用完全受支持的 Microsoft 常规神经网络模型的语言对的项目。 查看语言的完整列表

短语字典

短语字典区分大小写。 它是精确的查找和替换操作。 如果在训练模型时包含短语字典,将按指定的方式翻译所列的任何单词或短语。 句子的余下部分将按平时的方式翻译。 可以使用短语字典来指定不应翻译的短语:在源和目标文件内提供相同的无需翻译的短语即可。

动态字典

使用动态字典功能可以自定义特定术语或短语的翻译。 你可以为独特的上下文、语言或特定需求定义自定义翻译。

神经网络短语词典

神经网络短语词典扩展了我们的动态词典标准短语词典功能。 动态字典和短语字典都允许你通过为特定术语或短语提供你自己的翻译来自定义翻译输出。 动态字典功能与翻译器 API 一起使用,而神经网络短语字典是使用自定义翻译器启用的。 神经网络短语字典通过让机器翻译模型调整术语和上下文来提高包含一个或多个术语翻译的句子的翻译质量。 此调整会产生更流畅的翻译。 同时,它保持了术语翻译的高准确性。

句子字典

句子字典不区分大小写。 使用句子字典可以指定源句子的确切目标译文。 若要进行句子字典匹配,提交的整个句子必须与源字典条目匹配。 如果源字典条目以标点结尾,则在匹配时会被忽略。 如果只是句子的一部分匹配,则该条目不匹配。 检测到匹配项时,将返回句子字典的目标条目。

仅限字典的训练

可以仅使用字典数据来训练模型。 为此,请仅选择要包含的一个或多个字典文档,然后选择“创建模型”。 由于此训练仅限于字典,因此无需指定最小的训练句子数量。 模型完成该训练的速度通常比标准训练更快。 最终的模型将使用 Microsoft 基线模型根据你添加的字典进行翻译。 不会生成测试报告。

注意

自定义翻译器不会在字典文件中进行句子对齐,因此,必须确保字典文档中的源和目标短语/句子数相同,并且它们已准确对齐。

建议

  • 字典不可取代使用训练数据训练模型。 我们建议让系统从训练数据中学习,以获得最佳结果。 但是,当必须逐字翻译句子或复合名词时,请使用短语字典。

  • 应谨慎使用短语字典。 如果替换了某个句子中的短语,该句子的上下文将会丢失,或者仅限用于翻译该句子的余下部分。 结果是,尽管会根据提供的字典翻译该句子中的短语或单词,但句子的整体翻译质量往往会降低。

  • 短语字典非常适合用于复合名词,例如产品名称(“Microsoft SQL Server”)、专有名词(“汉堡市”)或产品功能(“数据透视表”)。 对于动词或形容词,它不能起到相同的作用,因为这些词的词尾在源或目标语言中严重依赖于上下文。 最佳做法是避免对复合名词以外的任何内容使用短语字典条目。

  • 使用短语字典时,大写和标点非常重要。 字典条目区分大小写和标点全半角。 自定义翻译器仅匹配输入句子中全部使用源字典文件中指定的大写方式和标点符号的单词和短语。 并且译文将反映目标字典文件中提供的大写方式和标点。

    示例

    • 如果你正在训练使用短语字典的英语到西班牙语翻译系统,并且在源文件中指定“SQL server”,在目标文件中指定“Microsoft SQL Server”。 当你请求翻译包含短语“SQL server”的句子时,自定义翻译会将该字典条目与包含“Microsoft SQL Server”的翻译进行匹配。
    • 请求翻译包含相同短语但不与源文件中的内容(例如“sql server”、“sql Server”或“SQL Server”)匹配的句子时,它不会从字典中返回匹配项
    • 翻译遵循短语字典中指定的目标语言的规则。
  • 有关神经网络短语字典的详细信息,请参阅神经网络字典指南和建议

  • 如果使用句子字典,将忽略句末标点。

    示例

    • 如果源字典包含“This sentence ends with punctuation!”,则包含“This sentence ends with punctuation”的任何翻译请求都将匹配
  • 字典应该包含唯一的源行。 如果源行(单词、短语或句子)在字典文件中出现多次,系统始终会使用提供的最后一个条目,并在找到匹配项时返回目标

  • 避免在源字典文件中添加仅由数字组成,或者由两字母或三字母单词(例如首字母缩略词)组成的短语。

后续步骤