Azure AI 视频索引器中的语言支持
本文介绍视频索引器的语言选项,并为每个选项提供语言支持列表。 它包括对视频索引器功能、翻译、语言标识、自定义和视频索引器网站语言设置的语言支持。
每个方案支持的语言
本部分介绍视频索引器语言选项,并包含每个选项支持的语言表。
重要
列出的所有语言在通过 API 编制索引时都支持翻译。
列说明
支持的源语言 – 支持听录、翻译和搜索的媒体文件中使用的语言。
语言标识 - 当使用语言标识 编制索引时,视频索引器是否可以自动检测语言。 若要了解详细信息,请参阅 使用 Azure AI 视频索引器自动识别口语 和 语言识别 部分。
自定义 (语言模型) - 在视频索引器中自定义语言模型时是否可以使用该语言。 若要了解详细信息,请参阅 Azure AI 视频索引器中的自定义语言模型。
发音(语言模型) - 语言是否可用于创建发音数据集作为自定义语音模型的一部分。 若要了解详细信息,请参阅 使用 Azure AI 视频索引器自定义语音模型。
网站翻译 – 使用 Azure AI 视频索引器网站时是否支持翻译语言。 在语言下拉菜单中选择翻译的语言。
将翻译以下见解:
- 字幕
- 关键字
- 主题
- 标签
- 帧模式(目前仅限希伯来语)
使用翻译时,所有其他见解都以英语显示。
网站语言 - 是否可以选择语言以在 Azure AI 视频索引器网站上使用。 选择“设置”图标,然后在“语言设置”下拉列表中选择语言。
语言 | 代码 | 支持 源语言 |
语言 鉴定 |
定制 (语言模型) |
发音 (语言模型) |
网站 译本 |
网站 语言 |
---|---|---|---|---|---|---|---|
南非荷兰语 | af-ZA | ✔ | |||||
阿拉伯语(以色列) | ar-IL | ✔ | ✔ | ||||
阿拉伯语(伊拉克) | ar-IQ | ✔ | ✔ | ||||
阿拉伯语(约旦) | ar-JO | ✔ | ✔ | ✔ | |||
阿拉伯语(科威特) | ar-KW | ✔ | ✔ | ✔ | |||
阿拉伯语(黎巴嫩) | ar-LB | ✔ | ✔ | ||||
阿拉伯语(阿曼) | ar-OM | ✔ | ✔ | ✔ | |||
阿拉伯语(巴勒斯坦民族权利机构) | ar-PS | ✔ | ✔ | ||||
阿拉伯语(卡塔尔) | ar-QA | ✔ | ✔ | ✔ | |||
阿拉伯语(沙特阿拉伯) | ar-SA | ✔ | ✔ | ✔ | |||
阿拉伯语(阿拉伯联合酋长国) | ar-AE | ✔ | ✔ | ✔ | |||
阿拉伯语(埃及) | ar-EG | ✔ | ✔ | ✔ | ✔ | ||
现代标准阿拉伯语(巴林) | ar-BH | ✔ | ✔ | ✔ | |||
阿拉伯语(阿拉伯叙利亚共和国) | ar-SY | ✔ | ✔ | ✔ | |||
亚美尼亚语 | hy-AM | ✔ | |||||
Bangla | bn-BD | ✔ | |||||
波斯尼亚语 | bs-Latn | ✔ | |||||
保加利亚语 | bg-BG | ✔ | ✔ | ✔ | |||
加泰罗尼亚语 | ca-ES | ✔ | ✔ | ✔ | ✔ | ✔ | |
中文(繁体粤语) | zh-HK | ✔ | ✔ | ✔ | ✔ | ✔ | |
中文(简体) | zh-Hans | ✔ | ✔ | ✔ | ✔ | ||
中文(简体) | zh-CK | ✔ | ✔ | ✔ | ✔ | ||
中文(繁体) | zh-Hant | ✔ | |||||
克罗地亚语 | hr-HR | ✔ | ✔ | ✔ | ✔ | ||
捷克语 | cs-CZ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ |
丹麦语 | da-DK | ✔ | ✔ | ✔ | ✔ | ✔ | |
荷兰语 | nl-NL | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ |
英语(澳大利亚) | en-AU | ✔ | ✔ | ✔ | ✔ | ✔ | |
英语(英国) | en-GB | ✔ | ✔ | ✔ | ✔ | ✔ | |
英语(美国) | en-US | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ |
爱沙尼亚语 | et-EE | ✔ | ✔ | ✔ | ✔ | ✔ | |
斐济语 | en-FJ | ✔ | |||||
菲律宾语 | fil-PH | ✔ | |||||
芬兰语 | fi-FI | ✔ | ✔ | ✔ | ✔ | ✔ | |
法语 | fr-FR | ✔ | ✔ | ✔ | ✔ | ✔ | |
法语(加拿大) | fr-CA | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ |
德语 | de-DE | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ |
希腊语 | el-GR | ✔ | ✔ | ✔ | |||
古吉拉特语 | gu-IN | ✔ | ✔ | ✔ | |||
海地语 | fr-HT | ✔ | |||||
希伯来语 | he-IL | ✔ | ✔ | ✔ | ✔ | ||
印地语 | hi-IN | ✔ | ✔ | ✔ | ✔ | ✔ | |
匈牙利语 | hu-HU | ✔ | ✔ | ✔ | ✔ | ✔ | |
冰岛语 | is-IS | ✔ | |||||
印度尼西亚语 | id-ID | ✔ | ✔ | ✔ | |||
爱尔兰语 | ga-IE | ✔ | ✔ | ✔ | ✔ | ||
意大利语 | it-IT | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ |
日语 | ja-JP | ✔ | ✔ | ✔ | ✔ | ✔ | |
卡纳达语 | kn-IN | ✔ | ✔ | ||||
斯瓦希里语 | sw-KE | ✔ | |||||
韩语 | ko-KR | ✔ | ✔ | ✔ | ✔ | ✔ | |
拉脱维亚语 | lv-LV | ✔ | ✔ | ✔ | ✔ | ✔ | |
立陶宛语 | lt-LT | ✔ | ✔ | ✔ | |||
马达加斯加语 | mg-MG | ✔ | |||||
马来语 | ms-MY | ✔ | ✔ | ||||
马拉雅拉姆语 | ml-IN | ✔ | ✔ | ||||
马耳他语 | mt-MT | ✔ | |||||
挪威语 | nb-NO | ✔ | ✔ | ✔ | ✔ | ||
波斯语 | fa-IR | ✔ | ✔ | ✔ | |||
波兰语 | pl-PL | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ |
葡萄牙语 | pt-BR | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ |
葡萄牙语(葡萄牙) | pt-PT | ✔ | ✔ | ✔ | ✔ | ✔ | |
罗马尼亚语 | ro-RO | ✔ | ✔ | ✔ | ✔ | ✔ | |
俄语 | ru-RU | ✔ | ✔ | ✔ | ✔ | ✔ | |
萨摩亚语 | en-WS | ||||||
塞尔维亚语(西里尔) | sr-Cyrl-RS | ✔ | |||||
塞尔维亚语(拉丁) | sr-Latn-RS | ✔ | |||||
斯洛伐克语 | sk-SK | ✔ | ✔ | ✔ | ✔ | ✔ | |
斯洛文尼亚语 | sl-SI | ✔ | ✔ | ✔ | ✔ | ✔ | |
西班牙语 | es-ES | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ |
西班牙语(墨西哥) | es-MX | ✔ | ✔ | ✔ | ✔ | ✔ | |
瑞典语 | sv-SE | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ |
泰米尔语 | ta-IN | ✔ | ✔ | ✔ | |||
泰卢固语 | te-IN | ✔ | ✔ | ||||
泰语 | th-TH | ✔ | ✔ | ✔ | ✔ | ||
汤加语 | to-TO | ✔ | |||||
土耳其语 | tr-TR | ✔ | ✔ | ✔ | ✔ | ✔ | |
乌克兰语 | uk-UA | ✔ | ✔ | ✔ | |||
乌尔都语 | ur-PK | ✔ | |||||
越南语 | vi-VN | ✔ | ✔ | ✔ |
通过 API 获取支持的语言
使用“获取支持的语言”API 调用来拉取每个区域支持的语言的完整列表。 有关详细信息,请参阅 “获取支持的语言”。
API 返回具有以下值的受支持语言的列表:
{
"name": "Language",
"languageCode": "Code",
"isRightToLeft": true/false,
"isSourceLanguage": true/false,
"isAutoDetect": true/false
}
支持的源语言:
如果
isSourceLanguage
为 false,则仅支持翻译语言。 如果isSourceLanguage
为 true,则支持该语言作为听录、翻译和搜索的源。语言识别(自动检测):
如果
isAutoDetect
为 true,则语言标识(LID)和多语言标识(MLID)支持该语言。
语言标识
将媒体文件上传到视频索引器时,可以指定媒体文件的源语言。 如果通过视频索引器网站为文件编制索引,可以通过在文件上传过程中选择语言来完成此操作。 如果要通过 API 提交索引作业,则使用语言参数完成该作业。 然后,使用所选语言生成文件的听录。
如果不确定媒体文件的源语言,或者它可能包含多种语言,视频索引器可以检测口语。 如果选择媒体文件的源语言(LID)或多语言(MLID),则检测到的语言或语言将用于转录媒体文件。 若要了解有关 LID 和 MLID 的详细信息,请参阅使用 Azure AI 视频索引器自动识别口语,请参阅 使用语言识别模型 自动识别口语并 自动识别和转录多语言内容
在为 LID 和 MLID 编制媒体文件索引期间,允许识别 10 种语言。 以下是 9 种默认 语言的语言识别(LID)和多语言识别(MILD):
- 德语 (de-DE)
- 英语美国(en-US)
- 西班牙语 (es-ES)
- 法语 (fr-FR)
- 意大利语 (it-IT)
- 日语 (ja-JP)
- 葡萄牙语(pt-BR)
- 俄语 (ru-RU)
- 中文(简体中文) (zh-Hans)
如何更改默认语言列表
如果需要使用默认未使用的语言进行标识,可以将列表自定义为支持通过网站或 API 进行自定义的任何 10 种语言:
使用网站更改列表
选择 “模型自定义”下的“语言 ID ”选项卡。 语言列表特定于你正在使用的视频索引器帐户以及登录用户。 默认语言列表将按用户保存在其本地设备上、每个设备和浏览器上。 因此,每个用户都可以配置自己的默认标识语言列表。
使用 “添加语言 ”搜索和添加更多语言。 如果已选择 10 种语言,必须先删除其中一种现有检测到的语言,然后再添加新语言。
使用 API 更改列表
上传文件时,视频索引器语言模型默认交叉引用 9 种语言。 如果存在匹配项,则模型使用检测到的语言为文件生成听录。
使用语言参数指定 multi
(MLID) 或 auto
(LID) 参数。 使用 customLanguages
参数指定最多 10 种语言。 (仅当语言参数设置为 multi
或 auto
.)若要了解有关使用 API 的详细信息,请参阅 使用 Azure AI 视频索引器 API。