Поддержка языков для компонента "Пользовательское распознавание именованных сущностей"
В этой статье содержатся сведения о языках, которые в настоящее время поддерживаются компонентом "Пользовательское распознавание именованных сущностей".
Параметр многоязычности
Благодаря пользовательскому распознаванию именованных сущностей можно обучать модель на одном языке и использовать ее для извлечения сущностей из документов на другом. Эта функция очень эффективна, так как позволяет экономить время и усилия. Она устраняет необходимость создавать отдельные проекты для каждого языка, и в одном проекте можно использовать многоязычный набор данных. Набор данных не обязательно должен быть построен на одном языке, но при создании проекта или позже в параметрах проекта необходимо включить параметр многоязычности. Если при оценивании вы определили, что модель плохо работает на определенных языках, рассмотрите добавление дополнительных данных на таких языках в набор для обучения.
Вы можете полностью обучить свой проект документам на английском языке и запрашивать его на французском, немецком, китайском, японском, корейском и других языках. Пользовательское распознавание именованных сущностей позволяет легко масштабировать проекты до нескольких языков, используя многоязычную технологию для обучения моделей.
Когда вы обнаружите, что определенный язык работает не так хорошо, как другие языки, вы можете добавить документы для этого языка в свой проект. На странице Маркировка данных в Language Studio вы можете выбрать язык добавляемого документа. Когда вы предоставляете дополнительные документы для этого языка для модели, она знакомится с более подробным синтаксисом этого языка и учится предсказывать его лучше.
Вы не должны добавлять одинаковое количество документов для каждого языка. Вы должны создать большую часть проекта на одном языке и добавить лишь несколько документов на тех языках, которые работают не очень хорошо. Если вы создадите проект преимущественно на английском языке и начнете тестировать его на французском, немецком и испанском языках, вы можете заметить, что немецкий язык работает не так хорошо, как два других языка. В этом случае попробуйте добавить 5 % исходных английских документов на немецком языке, обучите новую модель и снова протестируйте на немецком языке. Вы должны получить лучшие результаты для запросов на немецком языке. Чем больше документов с метками вы добавите, тем больше вероятность того, что результаты станут лучше.
Когда вы добавляете данные на другом языке, не стоит опасаться, что они негативно повлияют на остальные языки.
Поддержка языков
Пользовательское распознавание именованных сущностей поддерживает .txt
файлы на следующих языках:
Язык | Код языка |
---|---|
Африкаанс | af |
Амхарский | am |
Арабский | ar |
Ассамский | as |
Азербайджанский | az |
Белорусский | be |
Болгарский | bg |
Бенгальский | bn |
Бретонский | br |
Боснийский | bs |
Каталонский | ca |
Чешский | cs |
Валлийский | cy |
Датский | da |
Немецкий | de |
Греческий | el |
Английский (США) | en-us |
Esperanto | eo |
Испанский | es |
Эстонский | et |
Баскский | eu |
Персидский | fa |
Финский | fi |
французский | fr |
Западнофризский | fy |
Ирландский | ga |
Гэльский | gd |
Галисийский | gl |
Гуджарати | gu |
Хауса | ha |
Иврит | he |
Hindi | hi |
Хорватский | hr |
Венгерский | hu |
Армянский | hy |
Индонезийский | id |
Итальянский | it |
Японский | ja |
Яванский | jv |
Грузинский | ka |
Казахский | kk |
Кхмерский | km |
Каннада | kn |
Корейский | ko |
Курдский (Курманжи) | ku |
Киргизский | ky |
Латинская | la |
Лаосский | lo |
Литовский | lt |
Латышский | lv |
Малагасийский | mg |
Macedonian | mk |
Малаялам | ml |
Монгольский | mn |
Маратхи | mr |
Малайский | ms |
Бирманский | my |
Непальский | ne |
Голландский | nl |
Норвежский (букмол) | nb |
Ория | or |
Панджаби | pa |
Польский | pl |
Пушту | ps |
португальский (Бразилия) | pt-br |
Португальский (Португалия) | pt-pt |
Румынский | ro |
Русский | ru |
Санскрит | sa |
Синдхи | sd |
Сингальский | si |
Словацкий | sk |
Словенский | sl |
Сомалийский | so |
Албанский | sq |
Сербский | sr |
Sundanese | su |
Шведский | sv |
Суахили | sw |
Тамильский | ta |
Телугу | te |
Тайский | th |
Филиппинский | tl |
Турецкий | tr |
Уйгурский | ug |
Украинский | uk |
Урду | ur |
Узбекский | uz |
Вьетнамский | vi |
Коса | xh |
Идиш | yi |
Китайский (упрощенное письмо) | zh-hans |
Зулусский | zu |