你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

自定义文本分类的语言支持

使用本文了解自定义文本分类功能当前支持的语言。

多语言选项

通过自定义文本分类,你可以使用一种语言训练模型,并使用另一种语言对文档进行分类。 此功能非常有用,因为它可以帮助你节省时间和精力。 你可以在一个项目中处理多语言数据集,而不是为每种语言构建单独的项目。 数据集不必完全使用相同的语言,但你应在创建时或稍后在项目设置中为项目启用多语言选项。 如果在评估过程中发现模型在某些语言中表现不佳,请考虑将更多这些语言的数据添加到训练集中。

你可以完全使用英语文档训练项目,并使用法语、德语、普通话、日语、韩语等语言进行查询。 通过使用多语言技术训练模型,自定义文本分类使你可以轻松地将项目扩展为多种语言。

每当发现特定语言的表现不如其他语言时,就可以在项目中为该语言添加更多文档。 在 Language Studio 的数据标签页中,可以选择要添加的文档的语言。 向模型引入该语言的更多文档时,它会引入该语言的更多语法,并学习更好地进行预测。

不需要为每种语言添加相同数量的文档。 应该用一种语言生成大部分项目,并且只添加你观察到表现不佳的语言的一些文档。 如果创建一个以英语为主要语言的项目,并开始使用法语、德语和西班牙语进行测试,你可能会发现德语的表现不如另外两种语言。 在这种情况下,请考虑使用德语添加 5% 的原始英语文档,训练新模型,然后再次使用德语进行测试。 对于德语查询,应会看到更好的结果。 添加的已标记文档越多,结果可能越好。

以另一种语言添加数据时,不应期望数据对其他语言产生负面影响。

自定义文本分类支持的语言

自定义文本分类支持以下语言的 .txt 文件:

语言 语言代码
南非荷兰语 af
阿姆哈拉语 am
阿拉伯语 ar
阿萨姆语 as
阿塞拜疆语 az
白俄罗斯语 be
保加利亚语 bg
孟加拉语 bn
布列塔尼语 br
波斯尼亚语 bs
加泰罗尼亚语 ca
捷克语 cs
威尔士语 cy
丹麦语 da
德语 de
希腊语 el
英语(美国) en-us
世界语 eo
西班牙语 es
爱沙尼亚语 et
巴斯克语 eu
波斯语 fa
芬兰语 fi
法语 fr
西弗里西亚语 fy
爱尔兰语 ga
苏格兰盖尔语 gd
加利西亚语 gl
古吉拉特语 gu
豪萨语 ha
希伯来语 he
Hindi hi
克罗地亚语 hr
匈牙利语 hu
亚美尼亚语 hy
印度尼西亚语 id
意大利语 it
日语 ja
爪哇文 jv
格鲁吉亚语 ka
哈萨克语 kk
高棉语 km
卡纳达语 kn
韩语 ko
库尔德语(Kurmanji) ku
柯尔克孜语 ky
拉丁语 la
老挝语 lo
立陶宛语 lt
拉脱维亚语 lv
马达加斯加语 mg
马其顿语 mk
马拉雅拉姆语 ml
蒙古语 mn
马拉地语 mr
马来语 ms
缅甸语 my
尼泊尔语 ne
荷兰语 nl
挪威语(博克马尔语) nb
奥里亚语 or
旁遮普语 pa
波兰语 pl
普什图语 ps
葡萄牙语(巴西) pt-br
葡萄牙语(葡萄牙) pt-pt
罗马尼亚语 ro
俄语 ru
梵语 sa
信德语 sd
僧伽罗语 si
斯洛伐克语 sk
斯洛文尼亚语 sl
索马里语 so
阿尔巴尼亚语 sq
塞尔维亚语 sr
巽他语 su
瑞典语 sv
斯瓦希里语 sw
泰米尔语 ta
泰卢固语 te
泰语 th
菲律宾语 tl
土耳其语 tr
维吾尔语 ug
乌克兰语 uk
乌尔都语 ur
乌兹别克语 uz
越南语 vi
班图语 xh
意第绪语 yi
中文(简体) zh-hans
祖鲁语 zu

后续步骤