사용자 지정 명명된 엔터티 인식에 대한 언어 지원
이 문서를 사용하여 현재 사용자 지정 명명된 엔터티 인식에서 지원하는 언어에 대해 알아봅니다.
다국어 옵션
사용자 지정 NER을 사용하면 모델을 한 언어로 학습시키며 또 다른 언어의 문서에서 개체를 추출하는 데 사용할 수 있습니다. 이 기능은 시간과 노력을 절약하는 데 도움이 되므로 강력합니다. 모든 언어에 대해 별도의 프로젝트를 빌드하는 대신 한 프로젝트에서 다국어 데이터 세트를 처리할 수 있습니다. 데이터 세트가 완전히 동일한 언어일 필요는 없지만 만드는 동안 또는 나중에 프로젝트 설정에서 프로젝트에 대해 다국어 옵션을 사용하도록 설정해야 합니다. 평가 프로세스 중에 모델이 특정 언어에서 제대로 수행되지 않는 경우 이 언어로 된 데이터를 학습 세트에 추가하는 것이 좋습니다.
프로젝트를 완전히 영어 문서로 학습시키고 프랑스어, 독일어, 북경어, 일본어, 한국어 등으로 쿼리할 수 있습니다. 사용자 지정 명명된 엔터티 인식을 사용하면 다국어 기술로 모델을 학습시켜서 프로젝트를 여러 언어로 쉽게 스케일링할 수 있습니다.
특정 언어가 다른 언어만큼 수행되지 않는 것을 확인할 때마다 프로젝트에 해당 언어에 대한 문서를 더 추가할 수 있습니다. Language Studio의 데이터 레이블 지정 페이지에서 추가할 문서의 언어를 선택할 수 있습니다. 모델에 해당 언어에 대한 추가 문서를 도입하는 경우 해당 언어의 더 많은 구문이 도입되고 더 잘 예측하는 방법을 알아봅니다.
모든 언어에 대해 동일한 수의 문서를 추가할 필요는 없습니다. 대부분의 프로젝트를 하나의 언어로 빌드해야 하며 잘 수행되지 않은 것으로 관찰되는 언어로 몇 가지 문서를 추가하면 됩니다. 주로 영어로 된 프로젝트를 만들고 프랑스어, 독일어 및 스페인어로 테스트를 시작하는 경우 독일어가 다른 두 언어만큼 잘 수행되지 않는다는 것을 알 수 있습니다. 이 경우 원본 영어 문서의 5%를 독일어로 추가하고, 새 모델을 학습시키고, 독일어로 다시 테스트하는 것이 좋습니다. 독일어 쿼리에 대해 더 나은 결과를 볼 수 있습니다. 더 많은 레이블이 지정된 문서를 추가할수록 더 좋은 결과를 얻을 가능성이 높습니다.
다른 언어로 데이터를 추가하는 경우 다른 언어에 부정적인 영향을 주지 않습니다.
언어 지원
사용자 지정 NER는 다음 언어로 된 .txt
파일을 지원합니다.
언어 | 언어 코드 |
---|---|
아프리칸스어 | af |
암하라어 | am |
아랍어 | ar |
아삼어 | as |
아제르바이잔어 | az |
벨로루시어 | be |
불가리아어 | bg |
벵골어 | bn |
브르타뉴어 | br |
보스니아 헤르체고비나어 | bs |
카탈로니아어 | ca |
체코어 | cs |
웨일스어 | cy |
덴마크어 | da |
독일어 | de |
그리스어 | el |
영어(미국) | en-us |
Esperanto | eo |
스페인어 | es |
에스토니아어 | et |
바스크어 | eu |
페르시아어 | fa |
핀란드어 | fi |
프랑스어/French | fr |
서 프리지아어 | fy |
아일랜드어 | ga |
스코틀랜드 게일어 | gd |
갈리시아어 | gl |
구자라트어 | gu |
하우사어 | ha |
히브리어 | he |
힌디어 | hi |
크로아티아어 | hr |
헝가리어 | hu |
아르메니아 | hy |
인도네시아어 | id |
이탈리아어 | it |
일본어 | ja |
자바어 | jv |
그루지야 문자 | ka |
카자흐어 | kk |
크메르어 | km |
칸나다어 | kn |
한국어 | ko |
쿠르드어(쿠르만지) | ku |
키르기스어 | ky |
라틴어 | la |
라오스어 | lo |
리투아니아어 | lt |
라트비아어 | lv |
말라가시어 | mg |
마케도니아어 | mk |
말라얄람어 | ml |
몽골어 | mn |
마라티어 | mr |
말레이어 | ms |
Burmese | my |
네팔어 | ne |
네덜란드어 | nl |
노르웨이어(복말) | nb |
오디아어 | or |
펀잡어 | pa |
폴란드어 | pl |
파슈토어 | ps |
포르투갈어(브라질) | pt-br |
포르투갈어(포르투갈) | pt-pt |
루마니아어 | ro |
러시아어 | ru |
산스크리트어 | sa |
신디어 | sd |
싱할라어 | si |
슬로바키아어 | sk |
슬로베니아어 | sl |
소말리아어 | so |
알바니아어 | sq |
세르비아어 | sr |
순다어 | su |
스웨덴어 | sv |
스와힐리어 | sw |
타밀어 | ta |
텔루구어 | te |
태국어 | th |
필리핀어 | tl |
터키어 | tr |
위구르어 | ug |
우크라이나어 | uk |
우르두어 | ur |
우즈베크어 | uz |
베트남어 | vi |
코사어 | xh |
이디시어 | yi |
중국어(간체) | zh-hans |
줄루어 | zu |