Compartir vía


Compatibilidad de idiomas para Reconocimiento de entidades con nombre personalizado

Use este artículo para conocer los idiomas que actualmente admite la función de reconocimiento de entidades con nombre personalizadas.

Opción multilingüe

Con el NER personalizado, puede entrenar un modelo en un idioma y usarlo para extraer entidades de documentos en otro idioma. Esta característica es poderosa porque ayuda a ahorrar tiempo y esfuerzo. En lugar de crear proyectos independientes para cada idioma, puede controlar el conjunto de datos multilingüe en un proyecto. El conjunto de datos no tiene que estar todo en el mismo idioma, pero debe habilitar la opción multilingüe para el proyecto durante la creación o posteriormente al configurarlo. Si observa que el modelo funciona de forma deficiente en determinados idiomas durante el proceso de evaluación, considere la posibilidad de agregar más datos en estos idiomas al conjunto de entrenamiento.

Puede entrenar el proyecto completamente con documentos en inglés y consultarlo en francés, alemán, mandarín, japonés, coreano y otros. El reconocimiento de entidades con nombre personalizadas facilita la ampliación de los proyectos a varios idiomas mediante el uso de tecnología multilingüe para el entrenamiento de los modelos.

Siempre que identifique que un idioma determinado no funciona tan bien como otros, puede agregar más documentos para ese idioma en el proyecto. En la página de etiquetado de datos de Language Studio puede seleccionar el idioma del documento que va a agregar. Cuando se introducen más documentos de ese idioma en el modelo, éste conoce más de la sintaxis de ese idioma y aprende a predecirlo mejor.

No se espera que agregue la misma cantidad de documentos para cada idioma. Debe compilar la mayor parte del proyecto en un idioma y agregar solo algunos documentos en los idiomas que observe que no tienen un buen rendimiento. Si crea un proyecto que está principalmente en inglés y empieza a probarlo en francés, alemán y español, es posible que observe que en alemán no funciona tan bien como en los otros dos idiomas. En ese caso, considere la posibilidad de agregar el 5 % de los documentos originales en inglés en alemán, entrenar un modelo nuevo y volver a probarlo en alemán. Debería ver mejores resultados para las consultas en alemán. Cuantos más documentos etiquetados agregue, más probable es que mejoren los resultados.

Al agregar datos en otro idioma, no debe esperar que se produzca un efecto negativo en los otros.

Compatibilidad con idiomas

NER personalizado admite archivos .txt en los siguientes idiomas:

Idioma Código de lenguaje
Afrikáans af
Amárico am
Árabe ar
Asamés as
Azerbaiyano az
Bielorruso be
Búlgaro bg
Bengalí bn
Bretón br
Bosnio bs
Catalán ca
Checo cs
Galés cy
Danés da
Alemán de
Griego el
Inglés (EE. UU.) en-us
Esperanto eo
Español es
Estonio et
Vasco eu
Persa fa
Finés fi
Francés fr
Frisón occidental fy
Irlandés ga
Gaélico escocés gd
Gallego gl
Gujarati gu
Hausa ha
Hebreo he
Hindi hi
Croata hr
Húngaro hu
Armenio hy
Indonesio id
Italiano it
Japonés ja
Javanés jv
Georgiano ka
Kazajo kk
Jemer km
Canarés kn
Coreano ko
Kurdo (Kurmanji) ku
Kirguís ky
Latín la
Lao lo
Lituano lt
Letón lv
Malgache mg
Macedonio mk
Malayalam ml
Mongol mn
Maratí mr
Malayo ms
Birmano my
Nepalí ne
Neerlandés nl
Noruego (bokmal) nb
Odia or
Punjabi pa
Polaco pl
Pastún ps
Portugués (Brasil) pt-br
Portugués (Portugal) pt-pt
Rumano ro
Ruso ru
Sánscrito sa
Sindhi sd
Cingalés si
Eslovaco sk
Esloveno sl
Somalí so
Albanés sq
Serbio sr
Sundanés su
Sueco sv
Swahili sw
Tamil ta
Telugu te
Tailandés th
Filipino tl
Turco tr
Uigur ug
Ucraniano uk
Urdu ur
Uzbeko uz
Vietnamita vi
Xhosa xh
Yidis yi
Chino (simplificado) zh-hans
Zulú zu

Pasos siguientes