Поддержка языков для функции распознавания устной речи
В этой статье содержатся сведения о языках, которые в настоящее время поддерживаются компонентом "Распознавание устной речи".
Параметр многоязычности
Совет
В статье об обучении модели есть сведения о том, какой режим обучения лучше использовать для многоязычных проектов.
Функция распознавания речи позволяет обучить модель на одном языке и использовать ее для прогнозирования намерений и сущностей по высказываниям на другом языке. Эта функция очень эффективна, так как позволяет экономить время и усилия. Она устраняет необходимость создавать отдельные проекты для каждого языка, и в одном проекте можно использовать многоязычный набор данных. Набор данных не обязательно должен быть построен на одном языке, но при создании проекта или позже в параметрах проекта необходимо включить параметр многоязычности. Если при оценивании вы определили, что модель плохо работает на определенных языках, рассмотрите добавление дополнительных данных на таких языках в набор для обучения.
Вы можете полностью обучить свой проект по речевым фрагментам на английском языке, а затем направлять к нему запросы на французском, немецком, китайском, японском, корейском и других языках. Распознавание устной речи позволяет легко масштабировать проекты до нескольких языков, используя многоязычную технологию для обучения моделей.
Когда вы обнаружите, что определенный язык работает не так хорошо, как другие языки, вы можете добавить речевые фрагменты для этого языка в свой проект. На странице Добавление тегов к речевым фрагментам в Language Studio вы можете выбрать язык добавляемого речевого фрагмента. Когда вы предоставляете примеры для этого языка для модели, она знакомится с более подробным синтаксисом этого языка и учится предсказывать его лучше.
Вам не нужно добавлять одинаковое количество речевых фрагментов для каждого языка. Вы должны создать большую часть проекта на одном языке и добавить лишь несколько речевых фрагментов на тех языках, которые работают не очень хорошо. Если вы создадите проект преимущественно на английском языке и начнете тестировать его на французском, немецком и испанском языках, вы можете заметить, что немецкий язык работает не так хорошо, как два других языка. В этом случае попробуйте добавить 5% исходных английских примеров на немецком языке, обучите новую модель и снова протестируйте на немецком языке. Вы должны получить лучшие результаты для запросов на немецком языке. Чем больше речевых фрагментов вы добавите, тем больше вероятность того, что результаты станут лучше.
Когда вы добавляете данные на другом языке, не стоит опасаться, что они негативно повлияют на остальные языки.
Перечисление и предварительное создание компонентов на нескольких языках
Проекты с поддержкой нескольких языков позволяют указывать синонимы для каждого языка для каждого ключа списка. В зависимости от языка, на котором вы запрашиваете свой проект, вы получите только совпадения для компонента списка с синонимами этого языка. При выполнении запроса проекта можно указать язык в тексте запроса.
"query": "{query}"
"language": "{language code}"
Если язык не указан, будет возвращен язык по умолчанию для проекта.
Предварительно созданные компоненты аналогичны, и вы должны ожидать получения прогнозов для предварительно созданных компонентов, доступных на определенных языках. Язык запроса снова определяет, какие компоненты следует прогнозировать.
Языки, поддерживаемые в распознавании устной речи
Распознавание устной речи поддерживает высказывания на следующих языках:
Язык | Код языка |
---|---|
Африкаанс | af |
Амхарский | am |
Арабский | ar |
Ассамский | as |
Азербайджанский | az |
Белорусский | be |
Болгарский | bg |
Бенгальский | bn |
Бретонский | br |
Боснийский | bs |
Каталонский | ca |
Чешский | cs |
Валлийский | cy |
Датский | da |
Немецкий | de |
Греческий | el |
Английский (США) | en-us |
Английский (Соединенное Королевство) | en-gb |
Esperanto | eo |
Испанский | es |
Эстонский | et |
Баскский | eu |
Персидский | fa |
Финский | fi |
французский | fr |
Западнофризский | fy |
Ирландский | ga |
Гэльский | gd |
Галисийский | gl |
Гуджарати | gu |
Хауса | ha |
Иврит | he |
Hindi | hi |
Хорватский | hr |
Венгерский | hu |
Армянский | hy |
Индонезийский | id |
Итальянский | it |
Японский | ja |
Яванский | jv |
Грузинский | ka |
Казахский | kk |
Кхмерский | km |
Каннада | kn |
Корейский | ko |
Курдский (Курманжи) | ku |
Киргизский | ky |
Латинская | la |
Лаосский | lo |
Литовский | lt |
Латышский | lv |
Малагасийский | mg |
Macedonian | mk |
Малаялам | ml |
Монгольский | mn |
Маратхи | mr |
Малайский | ms |
Бирманский | my |
Непальский | ne |
Голландский | nl |
Норвежский (букмол) | nb |
Ория | or |
Панджаби | pa |
Польский | pl |
Пушту | ps |
португальский (Бразилия) | pt-br |
Португальский (Португалия) | pt-pt |
Румынский | ro |
Русский | ru |
Санскрит | sa |
Синдхи | sd |
Сингальский | si |
Словацкий | sk |
Словенский | sl |
Сомалийский | so |
Албанский | sq |
Сербский | sr |
Sundanese | su |
Шведский | sv |
Суахили | sw |
Тамильский | ta |
Телугу | te |
Тайский | th |
Филиппинский | tl |
Турецкий | tr |
Уйгурский | ug |
Украинский | uk |
Урду | ur |
Узбекский | uz |
Вьетнамский | vi |
Коса | xh |
Идиш | yi |
Китайский (упрощенное письмо) | zh-hans |
Китайский (традиционное письмо) | zh-hant |
Зулусский | zu |