Obsługa języka na potrzeby niestandardowej klasyfikacji tekstu
Skorzystaj z tego artykułu, aby dowiedzieć się więcej o językach obsługiwanych obecnie przez niestandardową funkcję klasyfikacji tekstu.
Opcja wielojęzyczna
Dzięki niestandardowej klasyfikacji tekstu można wytrenować model w jednym języku i użyć go do klasyfikowania dokumentów w innym języku. Ta funkcja jest przydatna, ponieważ pomaga zaoszczędzić czas i nakład pracy. Zamiast kompilować oddzielne projekty dla każdego języka, można obsługiwać wielojęzyczny zestaw danych w jednym projekcie. Zestaw danych nie musi być całkowicie w tym samym języku, ale należy włączyć opcję wielojęzyczną dla projektu podczas tworzenia lub nowszych ustawień projektu. Jeśli podczas procesu oceny zauważysz, że model działa słabo w niektórych językach, rozważ dodanie większej ilości danych w tych językach do zestawu szkoleniowego.
Możesz wytrenować swój projekt w całości przy użyciu dokumentów angielskich i wykonywać na nim zapytania: francuski, niemiecki, mandaryński, japoński, koreański i inne. Niestandardowa klasyfikacja tekstu ułatwia skalowanie projektów do wielu języków przy użyciu technologii wielojęzycznej do trenowania modeli.
Za każdym razem, gdy określisz, że dany język nie działa, a także inne języki, możesz dodać więcej dokumentów dla tego języka w projekcie. Na stronie etykietowania danych w programie Language Studio możesz wybrać język dodawanego dokumentu. Wprowadzenie większej liczby dokumentów dla tego języka do modelu jest wprowadzane do bardziej składni tego języka i uczy się przewidywać go lepiej.
Nie oczekuje się dodania tej samej liczby dokumentów dla każdego języka. Większość projektu należy utworzyć w jednym języku i dodać tylko kilka dokumentów w językach, które obserwujesz, nie działają prawidłowo. Jeśli utworzysz projekt, który jest głównie w języku angielskim i zaczniesz testować go w języku francuskim, niemieckim i hiszpańskim, możesz zauważyć, że język niemiecki nie działa, a także inne dwa języki. W takim przypadku rozważ dodanie 5% oryginalnych dokumentów w języku angielskim w języku niemieckim, wytrenuj nowy model i ponownie przetestuj go w języku niemieckim. Powinny zostać wyświetlone lepsze wyniki dla niemieckich zapytań. Tym bardziej oznaczone dokumenty, tym bardziej prawdopodobne, że wyniki będą lepsze.
Podczas dodawania danych w innym języku nie należy oczekiwać, że będzie ona negatywnie wpływać na inne języki.
Języki obsługiwane przez niestandardową klasyfikację tekstu
Niestandardowa klasyfikacja tekstu obsługuje .txt
pliki w następujących językach:
Język | Kod języka |
---|---|
Afrikaans | af |
Amharski | am |
Arabski | ar |
Asamski | as |
Azerbejdżański | az |
Białoruski | be |
Bułgarski | bg |
Bengalski | bn |
Bretoński | br |
Bośniacki | bs |
Kataloński | ca |
Czeski | cs |
Walijski | cy |
Duński | da |
Niemiecki | de |
Grecki | el |
English (US) | en-us |
Esperanto | eo |
Hiszpański | es |
Estoński | et |
Baskijski | eu |
Perski | fa |
Fiński | fi |
Francuski | fr |
Zachodni Fryzyjscy | fy |
Irlandzki | ga |
Język szkocki gaelicki | gd |
Galicyjski | gl |
Gudżarati | gu |
Hausa | ha |
Hebrajski | he |
Hindi | hi |
Chorwacki | hr |
Węgierski | hu |
Ormiański | hy |
Indonezyjski | id |
Włoski | it |
japoński | ja |
Jawajski | jv |
Gruziński | ka |
Kazachski | kk |
Khmerski | km |
Kannada | kn |
Koreański | ko |
Kurdyjski (Kurmjski) | ku |
Kirgiski | ky |
Łacina | la |
Laotański | lo |
Litewski | lt |
Łotewski | lv |
Malgaski | mg |
Macedoński | mk |
Malayalam | ml |
Mongolski | mn |
Marathi | mr |
Malajski | ms |
Birmański | my |
Nepalski | ne |
Niderlandzki | nl |
Norweski (Bokmal) | nb |
Orija | or |
Pendżabski | pa |
Polski | pl |
Paszto | ps |
Portugalski (Brazylia) | pt-br |
Portugalski (Portugalia) | pt-pt |
Rumuński | ro |
Rosyjski | ru |
Sanskryt | sa |
Sindhi | sd |
Sinhala | si |
Słowacki | sk |
Słoweński | sl |
Somalijski | so |
Albański | sq |
Serbski | sr |
Sundanese | su |
Szwedzki | sv |
Suahili | sw |
Tamilski | ta |
Telugu | te |
Tajlandzki | th |
Filipino | tl |
Turecki | tr |
Ujgurski | ug |
Ukraiński | uk |
Urdu | ur |
Uzbecki | uz |
Wietnamski | vi |
Xhosa | xh |
Jidysz | yi |
Chiński (uproszczony) | zh-hans |
Zulu | zu |