다음을 통해 공유


사용자 지정 명명된 엔터티 인식에 대한 언어 지원

이 문서를 사용하여 현재 사용자 지정 명명된 엔터티 인식에서 지원하는 언어에 대해 알아봅니다.

다국어 옵션

사용자 지정 NER을 사용하면 모델을 한 언어로 학습시키며 또 다른 언어의 문서에서 개체를 추출하는 데 사용할 수 있습니다. 이 기능은 시간과 노력을 절약하는 데 도움이 되므로 강력합니다. 모든 언어에 대해 별도의 프로젝트를 빌드하는 대신 한 프로젝트에서 다국어 데이터 세트를 처리할 수 있습니다. 데이터 세트가 완전히 동일한 언어일 필요는 없지만 만드는 동안 또는 나중에 프로젝트 설정에서 프로젝트에 대해 다국어 옵션을 사용하도록 설정해야 합니다. 평가 프로세스 중에 모델이 특정 언어에서 제대로 수행되지 않는 경우 이 언어로 된 데이터를 학습 세트에 추가하는 것이 좋습니다.

프로젝트를 완전히 영어 문서로 학습시키고 프랑스어, 독일어, 북경어, 일본어, 한국어 등으로 쿼리할 수 있습니다. 사용자 지정 명명된 엔터티 인식을 사용하면 다국어 기술로 모델을 학습시켜서 프로젝트를 여러 언어로 쉽게 스케일링할 수 있습니다.

특정 언어가 다른 언어만큼 수행되지 않는 것을 확인할 때마다 프로젝트에 해당 언어에 대한 문서를 더 추가할 수 있습니다. Language Studio의 데이터 레이블 지정 페이지에서 추가할 문서의 언어를 선택할 수 있습니다. 모델에 해당 언어에 대한 추가 문서를 도입하는 경우 해당 언어의 더 많은 구문이 도입되고 더 잘 예측하는 방법을 알아봅니다.

모든 언어에 대해 동일한 수의 문서를 추가할 필요는 없습니다. 대부분의 프로젝트를 하나의 언어로 빌드해야 하며 잘 수행되지 않은 것으로 관찰되는 언어로 몇 가지 문서를 추가하면 됩니다. 주로 영어로 된 프로젝트를 만들고 프랑스어, 독일어 및 스페인어로 테스트를 시작하는 경우 독일어가 다른 두 언어만큼 잘 수행되지 않는다는 것을 알 수 있습니다. 이 경우 원본 영어 문서의 5%를 독일어로 추가하고, 새 모델을 학습시키고, 독일어로 다시 테스트하는 것이 좋습니다. 독일어 쿼리에 대해 더 나은 결과를 볼 수 있습니다. 더 많은 레이블이 지정된 문서를 추가할수록 더 좋은 결과를 얻을 가능성이 높습니다.

다른 언어로 데이터를 추가하는 경우 다른 언어에 부정적인 영향을 주지 않습니다.

언어 지원

사용자 지정 NER는 다음 언어로 된 .txt 파일을 지원합니다.

언어 언어 코드
아프리칸스어 af
암하라어 am
아랍어 ar
아삼어 as
아제르바이잔어 az
벨로루시어 be
불가리아어 bg
벵골어 bn
브르타뉴어 br
보스니아 헤르체고비나어 bs
카탈로니아어 ca
체코어 cs
웨일스어 cy
덴마크어 da
독일어 de
그리스어 el
영어(미국) en-us
Esperanto eo
스페인어 es
에스토니아어 et
바스크어 eu
페르시아어 fa
핀란드어 fi
프랑스어/French fr
서 프리지아어 fy
아일랜드어 ga
스코틀랜드 게일어 gd
갈리시아어 gl
구자라트어 gu
하우사어 ha
히브리어 he
힌디어 hi
크로아티아어 hr
헝가리어 hu
아르메니아 hy
인도네시아어 id
이탈리아어 it
일본어 ja
자바어 jv
그루지야 문자 ka
카자흐어 kk
크메르어 km
칸나다어 kn
한국어 ko
쿠르드어(쿠르만지) ku
키르기스어 ky
라틴어 la
라오스어 lo
리투아니아어 lt
라트비아어 lv
말라가시어 mg
마케도니아어 mk
말라얄람어 ml
몽골어 mn
마라티어 mr
말레이어 ms
Burmese my
네팔어 ne
네덜란드어 nl
노르웨이어(복말) nb
오디아어 or
펀잡어 pa
폴란드어 pl
파슈토어 ps
포르투갈어(브라질) pt-br
포르투갈어(포르투갈) pt-pt
루마니아어 ro
러시아어 ru
산스크리트어 sa
신디어 sd
싱할라어 si
슬로바키아어 sk
슬로베니아어 sl
소말리아어 so
알바니아어 sq
세르비아어 sr
순다어 su
스웨덴어 sv
스와힐리어 sw
타밀어 ta
텔루구어 te
태국어 th
필리핀어 tl
터키어 tr
위구르어 ug
우크라이나어 uk
우르두어 ur
우즈베크어 uz
베트남어 vi
코사어 xh
이디시어 yi
중국어(간체) zh-hans
줄루어 zu

다음 단계