你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
什么是并行文档?
并行文档是配对的文档,其中的一个文档是另一个文档的翻译。 该对中的一个文档包含采用源语言的句子,另一个文档包含这些句子的目标语言翻译。 哪种语言标记为“源”以及哪种语言标记为“目标”并不重要 - 并行文档都可用于朝任一方向训练翻译系统。
要求
训练一个系统至少需要有 10,000 个已对齐的独特并行句子。 此限制是一种安全保障,可确保并行句子包含足够的独特词汇来成功训练翻译模型。 最佳做法是不断添加更多的并行内容并重新训练,以提高翻译系统的质量。 有关详细信息,请参阅 句子对齐。
Microsoft 要求上传到自定义翻译工具的文档不违反第三方版权或知识产权。 有关详细信息,请参阅使用条款。 使用门户上传文档不会改变文档本身的知识产权所有权。
使用并行文档
系统使用并行文档来实现以下目的:
了解单词、短语和句子在两种语言之间的一般映射方式。
了解如何根据周围短语处理相应的上下文。 某个单词的翻译成不一定总与另一种语言的单词完全相同。
最佳做法是,确保在文档的源与目标语言版本之间建立 1 对 1 的句子对应关系。
如果项目特定于领域(类别),则文档应该与该类别中的术语相一致。 生成的翻译系统的质量取决于文档集中的句子数以及句子的质量。 文档中包含特定于类别的单词的不同用法示例越多,翻译过程中系统的表现就越好。
上传的文档专用于每个工作区,可在任意数量的项目或训练中使用。 从文档中提取的句子作为 Unicode 纯文本文件单独存储在存储库中,并可删除。 请勿使用自定义翻译器作为文档存储库,无法以上传的格式下载文档。