Udostępnij za pośrednictwem


Obsługa języka na potrzeby niestandardowej klasyfikacji tekstu

Skorzystaj z tego artykułu, aby dowiedzieć się więcej o językach obsługiwanych obecnie przez niestandardową funkcję klasyfikacji tekstu.

Opcja wielojęzyczna

Dzięki niestandardowej klasyfikacji tekstu można wytrenować model w jednym języku i użyć go do klasyfikowania dokumentów w innym języku. Ta funkcja jest przydatna, ponieważ pomaga zaoszczędzić czas i nakład pracy. Zamiast kompilować oddzielne projekty dla każdego języka, można obsługiwać wielojęzyczny zestaw danych w jednym projekcie. Zestaw danych nie musi być całkowicie w tym samym języku, ale należy włączyć opcję wielojęzyczną dla projektu podczas tworzenia lub nowszych ustawień projektu. Jeśli podczas procesu oceny zauważysz, że model działa słabo w niektórych językach, rozważ dodanie większej ilości danych w tych językach do zestawu szkoleniowego.

Możesz wytrenować swój projekt w całości przy użyciu dokumentów angielskich i wykonywać na nim zapytania: francuski, niemiecki, mandaryński, japoński, koreański i inne. Niestandardowa klasyfikacja tekstu ułatwia skalowanie projektów do wielu języków przy użyciu technologii wielojęzycznej do trenowania modeli.

Za każdym razem, gdy określisz, że dany język nie działa, a także inne języki, możesz dodać więcej dokumentów dla tego języka w projekcie. Na stronie etykietowania danych w programie Language Studio możesz wybrać język dodawanego dokumentu. Wprowadzenie większej liczby dokumentów dla tego języka do modelu jest wprowadzane do bardziej składni tego języka i uczy się przewidywać go lepiej.

Nie oczekuje się dodania tej samej liczby dokumentów dla każdego języka. Większość projektu należy utworzyć w jednym języku i dodać tylko kilka dokumentów w językach, które obserwujesz, nie działają prawidłowo. Jeśli utworzysz projekt, który jest głównie w języku angielskim i zaczniesz testować go w języku francuskim, niemieckim i hiszpańskim, możesz zauważyć, że język niemiecki nie działa, a także inne dwa języki. W takim przypadku rozważ dodanie 5% oryginalnych dokumentów w języku angielskim w języku niemieckim, wytrenuj nowy model i ponownie przetestuj go w języku niemieckim. Powinny zostać wyświetlone lepsze wyniki dla niemieckich zapytań. Tym bardziej oznaczone dokumenty, tym bardziej prawdopodobne, że wyniki będą lepsze.

Podczas dodawania danych w innym języku nie należy oczekiwać, że będzie ona negatywnie wpływać na inne języki.

Języki obsługiwane przez niestandardową klasyfikację tekstu

Niestandardowa klasyfikacja tekstu obsługuje .txt pliki w następujących językach:

Język Kod języka
Afrikaans af
Amharski am
Arabski ar
Asamski as
Azerbejdżański az
Białoruski be
Bułgarski bg
Bengalski bn
Bretoński br
Bośniacki bs
Kataloński ca
Czeski cs
Walijski cy
Duński da
Niemiecki de
Grecki el
English (US) en-us
Esperanto eo
Hiszpański es
Estoński et
Baskijski eu
Perski fa
Fiński fi
Francuski fr
Zachodni Fryzyjscy fy
Irlandzki ga
Język szkocki gaelicki gd
Galicyjski gl
Gudżarati gu
Hausa ha
Hebrajski he
Hindi hi
Chorwacki hr
Węgierski hu
Ormiański hy
Indonezyjski id
Włoski it
japoński ja
Jawajski jv
Gruziński ka
Kazachski kk
Khmerski km
Kannada kn
Koreański ko
Kurdyjski (Kurmjski) ku
Kirgiski ky
Łacina la
Laotański lo
Litewski lt
Łotewski lv
Malgaski mg
Macedoński mk
Malayalam ml
Mongolski mn
Marathi mr
Malajski ms
Birmański my
Nepalski ne
Niderlandzki nl
Norweski (Bokmal) nb
Orija or
Pendżabski pa
Polski pl
Paszto ps
Portugalski (Brazylia) pt-br
Portugalski (Portugalia) pt-pt
Rumuński ro
Rosyjski ru
Sanskryt sa
Sindhi sd
Sinhala si
Słowacki sk
Słoweński sl
Somalijski so
Albański sq
Serbski sr
Sundanese su
Szwedzki sv
Suahili sw
Tamilski ta
Telugu te
Tajlandzki th
Filipino tl
Turecki tr
Ujgurski ug
Ukraiński uk
Urdu ur
Uzbecki uz
Wietnamski vi
Xhosa xh
Jidysz yi
Chiński (uproszczony) zh-hans
Zulu zu

Następne kroki