你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

创建和管理训练文档

利用自定义翻译器,可以生成能够反映业务、行业和特定领域术语和风格的翻译模型。 训练和部署自定义模型很简单,不需要任何编程技能。 利用自定义翻译器,可以上传并行文件、翻译记忆库文件或 zip 文件。

并行文档是成对的文档,其中一个(目标)是另一个(源)的翻译。 成对文档中的一个包含源语言的句子,另一个文档则包含已翻译为目标语言的那些句子。

在上传文档之前,请查看文档格式和命名约定指南,以确保自定义翻译器支持你的文件格式。

如何创建文档集

查找领域内高质量数据通常会是一项困难的任务,它会因用户分类而异。 以下是一些你在评估可能获得的数据时可以问自己的问题:

  • 贵公司是否有可供使用的过往的翻译数据? 企业在长年使用人工翻译的过程中,往往会积累大量的翻译数据。

  • 你是否有大量的单语数据? 单语数据是指只使用一种语言的数据。 如果有,你能得到这些数据的翻译吗?

  • 你能抓取联机门户来收集源句并合成目标句吗?

每种文档类型的训练材料

作用 遵循的规则
双语训练文档 告知系统你的术语和风格。 解放思想。 任何领域内的人工翻译都比机器翻译好。 在尝试提高 BLEU 分数的过程中,添加和删除文档。
优化文档 训练神经机器翻译参数。 严格要求。 编写它们,使其能以最佳方式表示你将来要翻译的内容。
测试文档 计算 BLEU 分数 严格要求。 编写测试文档,使其能以最佳方式表示你将来计划翻译的内容。
短语字典 强制执行给定的翻译 100% 的时间。 施加限制。 短语词典区分大小写,任何列出的单词或短语都按照你指定的方式进行翻译。 在许多情况下,最好不使用短语字典,而是让系统自己学习。
句子字典 强制执行给定的翻译 100% 的时间。 严格要求。 句子词典不区分大小写,适用于常见的领域内的短句子。 若要进行句子字典匹配,提交的整个句子必须与源字典条目匹配。 如果只是句子的一部分匹配,则该条目不匹配。

如何上传文档

文档类型与创建项目时选择的语言对关联。

  1. 登录到自定义翻译器门户。 这时会加载你的默认工作区并显示以前创建的项目的列表。

  2. 选择所需项目的名称。 在默认情况下,“管理文档”边栏选项卡处于选中状态,并且会显示以前上传的文档的列表。

  3. 选择“添加文档集”,然后选择文档类型:

    • 训练集
    • 测试集
    • 优化集
    • 字典集:
      • 短语字典
      • 句子字典
  4. 选择“下一步”。

    演示文档上传链接的屏幕截图。

    注意

    选择“字典集”会启动“选择字典类型”对话框。 选择一个字典类型并选择“下一步”

  5. 从单选按钮中选择你的文档格式。

    “上传文档”页面的屏幕截图。

    • 对于“并行文档”,填写 Document set name 并选择“浏览文件”,以选择源文档和目标文档。
    • 对于“翻译记忆库 (TM)”文件或“利用 ZIP 上传多个集”,选择“浏览文件”,以选择该文件
  6. 选择“上传”。

此时,自定义翻译器会处理你的文档并尝试按上传通知中的指示提取句子。 在完成处理后,你会看到上传成功的通知。

演示“上传文档处理”对话框窗口的屏幕截图。

查看上传历史记录

在工作区页中,可以查看所有上传文档的历史记录详细信息,例如文档类型、语言对、上传状态,等等。

  1. 自定义翻译器门户工作区页面上的“上传历史记录”选项卡会显示历史记录。

    显示“上传历史记录”选项卡的屏幕截图。

  2. 此页显示以往所有上传内容的状态。 其中按最近到最早的时间顺序显示上传内容。 每个上传状态都会显示文档名称、创建者、上传状态、上传日期、上传的文件数、上传的文件类型,以及语言对。 可以使用筛选器按名称、状态、语言和日期范围快速查找文档。

    显示“上传历史记录”页的屏幕截图。

  3. 上传历史记录详细信息页面显示作为文件上传状态的一部分的已上传文件、文件的语言以及错误消息(如果上传过程中有错误)。

后续步骤