你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
文档格式和命名约定指南
用于自定义翻译的任何文件的长度必须至少为四个字符。
下表包含了可用于生成翻译系统的所有受支持文件格式:
格式 | 扩展 | 说明 |
---|---|---|
XLIFF |
.XLF 、.XLIFF |
并行文档格式,是翻译记忆系统的导出格式。 使用的语言在该文件中定义。 |
TMX |
.TMX |
并行文档格式,是翻译记忆系统的导出格式。 使用的语言在该文件中定义。 |
ZIP |
.ZIP |
一种存档文件格式。 |
Locstudio |
.LCL |
并行文档的 Microsoft 格式 |
Microsoft Word | .DOCX |
Microsoft Word 文档 |
Adobe Acrobat | .PDF |
Adobe Acrobat 可移植文档 |
HTML |
.HTML 、.HTM |
超文本标记语言文档 |
文本文件 | .TXT |
UTF-16 或 UTF-8 编码的文本文件。 文件名不能包含日语字符。 |
对齐的文本文件 | .ALIGN |
.ALIGN 是一个特殊的扩展名,如果你知道文档对中的句子已完美对齐,则可以使用此扩展名。 如果提供 .ALIGN 文件,自定义翻译工具不会对齐句子。 |
Excel 文件 | .XLSX |
Excel 文件(2013 或更高版本)。 电子表格的第一行应是语言代码。 |
字典格式
对于字典,自定义翻译器支持训练集所支持的所有文件格式。 如果使用 Excel 字典,电子表格的第一行应是语言代码。
Zip 文件格式
可将文档组合到单个 zip 文件并上传。 自定义翻译支持 zip 文件格式(ZIP
、GZ
和 TGZ
)。
扩展名为 TXT、HTML、HTM、PDF、DOCX、ALIGN 的 zip 文件中的每个文档都必须遵循以下命名约定:
{document name}_{language code}:其中,{document name} 是文档的名称,{language code} 是 ISO 语言 ID(两个字符),指示文档包含采用该语言的句子。 语言代码的前面必须有下划线 (_)。
例如,若要在 zip 中为英语到西班牙语翻译系统上传两个并行文档,则应将文件命名为 data_en
和 data_es
。
翻译记忆库文件 (TMX
、XLF
、XLIFF
、LCL
、XLSX
) 无需遵循特定的语言命名约定。