你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

自定义命名实体识别的语言支持

项目
11/21/2024

使用本文了解自定义命名实体识别功能当前支持的语言。

多语言选项

通过自定义 NER，你可以用一种语言训练模型并用于从另一种语言的文档中提取实体。此功能非常强大，因为它可以帮助你节省时间和精力。你可以在一个项目中处理多语言数据集，而不是为每种语言构建单独的项目。数据集不必完全使用相同的语言，但你应在创建时或稍后在项目设置中为项目启用多语言选项。如果在评估过程中发现模型在某些语言中表现不佳，请考虑将更多这些语言的数据添加到训练集中。

你可以完全使用英语文档训练项目，并使用法语、德语、普通话、日语、韩语等语言进行查询。通过使用多语言技术训练模型，自定义命名实体识别使你可以轻松地将项目扩展为多种语言。

每当发现特定语言的表现不如其他语言时，就可以在项目中为该语言添加更多文档。在 Language Studio 的数据标签页中，可以选择要添加的文档的语言。向模型引入该语言的更多文档时，它会引入该语言的更多语法，并学习更好地进行预测。

不需要为每种语言添加相同数量的文档。应该用一种语言生成大部分项目，并且只添加你观察到表现不佳的语言的一些文档。如果创建一个以英语为主要语言的项目，并开始使用法语、德语和西班牙语进行测试，你可能会发现德语的表现不如另外两种语言。在这种情况下，请考虑使用德语添加 5% 的原始英语文档，训练新模型，然后再次使用德语进行测试。对于德语查询，应会看到更好的结果。添加的已标记文档越多，结果可能越好。

以另一种语言添加数据时，不应期望数据对其他语言产生负面影响。

语言支持

自定义 NER 支持以下语言的 .txt 文件：

语言	语言代码
南非荷兰语	`af`
阿姆哈拉语	`am`
阿拉伯语	`ar`
阿萨姆语	`as`
阿塞拜疆语	`az`
白俄罗斯语	`be`
保加利亚语	`bg`
孟加拉语	`bn`
布列塔尼语	`br`
波斯尼亚语	`bs`
加泰罗尼亚语	`ca`
捷克语	`cs`
威尔士语	`cy`
丹麦语	`da`
德语	`de`
希腊语	`el`
英语(美国)	`en-us`
世界语	`eo`
西班牙语	`es`
爱沙尼亚语	`et`
巴斯克语	`eu`
波斯语	`fa`
芬兰语	`fi`
法语	`fr`
西弗里西亚语	`fy`
爱尔兰语	`ga`
苏格兰盖尔语	`gd`
加利西亚语	`gl`
古吉拉特语	`gu`
豪萨语	`ha`
希伯来语	`he`
Hindi	`hi`
克罗地亚语	`hr`
匈牙利语	`hu`
亚美尼亚语	`hy`
印度尼西亚语	`id`
意大利语	`it`
日语	`ja`
爪哇文	`jv`
格鲁吉亚语	`ka`
哈萨克语	`kk`
高棉语	`km`
卡纳达语	`kn`
韩语	`ko`
库尔德语(Kurmanji)	`ku`
柯尔克孜语	`ky`
拉丁语	`la`
老挝语	`lo`
立陶宛语	`lt`
拉脱维亚语	`lv`
马达加斯加语	`mg`
马其顿语	`mk`
马拉雅拉姆语	`ml`
蒙古语	`mn`
马拉地语	`mr`
马来语	`ms`
缅甸语	`my`
尼泊尔语	`ne`
荷兰语	`nl`
挪威语(博克马尔语)	`nb`
奥里亚语	`or`
旁遮普语	`pa`
波兰语	`pl`
普什图语	`ps`
葡萄牙语（巴西）	`pt-br`
葡萄牙语(葡萄牙)	`pt-pt`
罗马尼亚语	`ro`
俄语	`ru`
梵语	`sa`
信德语	`sd`
僧伽罗语	`si`
斯洛伐克语	`sk`
斯洛文尼亚语	`sl`
索马里语	`so`
阿尔巴尼亚语	`sq`
塞尔维亚语	`sr`
巽他语	`su`
瑞典语	`sv`
斯瓦希里语	`sw`
泰米尔语	`ta`
泰卢固语	`te`
泰语	`th`
菲律宾语	`tl`
土耳其语	`tr`
维吾尔语	`ug`
乌克兰语	`uk`
乌尔都语	`ur`
乌兹别克语	`uz`
越南语	`vi`
班图语	`xh`
意第绪语	`yi`
中文(简体)	`zh-hans`
祖鲁语	`zu`

通过

自定义命名实体识别的语言支持

多语言选项

语言支持

后续步骤

反馈

其他资源