Поделиться через


Поддержка языков для функции распознавания устной речи

В этой статье содержатся сведения о языках, которые в настоящее время поддерживаются компонентом "Распознавание устной речи".

Параметр многоязычности

Совет

В статье об обучении модели есть сведения о том, какой режим обучения лучше использовать для многоязычных проектов.

Функция распознавания речи позволяет обучить модель на одном языке и использовать ее для прогнозирования намерений и сущностей по высказываниям на другом языке. Эта функция очень эффективна, так как позволяет экономить время и усилия. Она устраняет необходимость создавать отдельные проекты для каждого языка, и в одном проекте можно использовать многоязычный набор данных. Набор данных не обязательно должен быть построен на одном языке, но при создании проекта или позже в параметрах проекта необходимо включить параметр многоязычности. Если при оценивании вы определили, что модель плохо работает на определенных языках, рассмотрите добавление дополнительных данных на таких языках в набор для обучения.

Вы можете полностью обучить свой проект по речевым фрагментам на английском языке, а затем направлять к нему запросы на французском, немецком, китайском, японском, корейском и других языках. Распознавание устной речи позволяет легко масштабировать проекты до нескольких языков, используя многоязычную технологию для обучения моделей.

Когда вы обнаружите, что определенный язык работает не так хорошо, как другие языки, вы можете добавить речевые фрагменты для этого языка в свой проект. На странице Добавление тегов к речевым фрагментам в Language Studio вы можете выбрать язык добавляемого речевого фрагмента. Когда вы предоставляете примеры для этого языка для модели, она знакомится с более подробным синтаксисом этого языка и учится предсказывать его лучше.

Вам не нужно добавлять одинаковое количество речевых фрагментов для каждого языка. Вы должны создать большую часть проекта на одном языке и добавить лишь несколько речевых фрагментов на тех языках, которые работают не очень хорошо. Если вы создадите проект преимущественно на английском языке и начнете тестировать его на французском, немецком и испанском языках, вы можете заметить, что немецкий язык работает не так хорошо, как два других языка. В этом случае попробуйте добавить 5% исходных английских примеров на немецком языке, обучите новую модель и снова протестируйте на немецком языке. Вы должны получить лучшие результаты для запросов на немецком языке. Чем больше речевых фрагментов вы добавите, тем больше вероятность того, что результаты станут лучше.

Когда вы добавляете данные на другом языке, не стоит опасаться, что они негативно повлияют на остальные языки.

Перечисление и предварительное создание компонентов на нескольких языках

Проекты с поддержкой нескольких языков позволяют указывать синонимы для каждого языка для каждого ключа списка. В зависимости от языка, на котором вы запрашиваете свой проект, вы получите только совпадения для компонента списка с синонимами этого языка. При выполнении запроса проекта можно указать язык в тексте запроса.

"query": "{query}"
"language": "{language code}"

Если язык не указан, будет возвращен язык по умолчанию для проекта.

Предварительно созданные компоненты аналогичны, и вы должны ожидать получения прогнозов для предварительно созданных компонентов, доступных на определенных языках. Язык запроса снова определяет, какие компоненты следует прогнозировать.

Языки, поддерживаемые в распознавании устной речи

Распознавание устной речи поддерживает высказывания на следующих языках:

Язык Код языка
Африкаанс af
Амхарский am
Арабский ar
Ассамский as
Азербайджанский az
Белорусский be
Болгарский bg
Бенгальский bn
Бретонский br
Боснийский bs
Каталонский ca
Чешский cs
Валлийский cy
Датский da
Немецкий de
Греческий el
Английский (США) en-us
Английский (Соединенное Королевство) en-gb
Esperanto eo
Испанский es
Эстонский et
Баскский eu
Персидский fa
Финский fi
французский fr
Западнофризский fy
Ирландский ga
Гэльский gd
Галисийский gl
Гуджарати gu
Хауса ha
Иврит he
Hindi hi
Хорватский hr
Венгерский hu
Армянский hy
Индонезийский id
Итальянский it
Японский ja
Яванский jv
Грузинский ka
Казахский kk
Кхмерский km
Каннада kn
Корейский ko
Курдский (Курманжи) ku
Киргизский ky
Латинская la
Лаосский lo
Литовский lt
Латышский lv
Малагасийский mg
Macedonian mk
Малаялам ml
Монгольский mn
Маратхи mr
Малайский ms
Бирманский my
Непальский ne
Голландский nl
Норвежский (букмол) nb
Ория or
Панджаби pa
Польский pl
Пушту ps
португальский (Бразилия) pt-br
Португальский (Португалия) pt-pt
Румынский ro
Русский ru
Санскрит sa
Синдхи sd
Сингальский si
Словацкий sk
Словенский sl
Сомалийский so
Албанский sq
Сербский sr
Sundanese su
Шведский sv
Суахили sw
Тамильский ta
Телугу te
Тайский th
Филиппинский tl
Турецкий tr
Уйгурский ug
Украинский uk
Урду ur
Узбекский uz
Вьетнамский vi
Коса xh
Идиш yi
Китайский (упрощенное письмо) zh-hans
Китайский (традиционное письмо) zh-hant
Зулусский zu

Следующие шаги