Obsługa języka na potrzeby niestandardowej klasyfikacji tekstu

Artykuł
11/21/2024

Skorzystaj z tego artykułu, aby dowiedzieć się więcej o językach obsługiwanych obecnie przez niestandardową funkcję klasyfikacji tekstu.

Opcja wielojęzyczna

Dzięki niestandardowej klasyfikacji tekstu można wytrenować model w jednym języku i użyć go do klasyfikowania dokumentów w innym języku. Ta funkcja jest przydatna, ponieważ pomaga zaoszczędzić czas i nakład pracy. Zamiast kompilować oddzielne projekty dla każdego języka, można obsługiwać wielojęzyczny zestaw danych w jednym projekcie. Zestaw danych nie musi być całkowicie w tym samym języku, ale należy włączyć opcję wielojęzyczną dla projektu podczas tworzenia lub nowszych ustawień projektu. Jeśli podczas procesu oceny zauważysz, że model działa słabo w niektórych językach, rozważ dodanie większej ilości danych w tych językach do zestawu szkoleniowego.

Możesz wytrenować swój projekt w całości przy użyciu dokumentów angielskich i wykonywać na nim zapytania: francuski, niemiecki, mandaryński, japoński, koreański i inne. Niestandardowa klasyfikacja tekstu ułatwia skalowanie projektów do wielu języków przy użyciu technologii wielojęzycznej do trenowania modeli.

Za każdym razem, gdy określisz, że dany język nie działa, a także inne języki, możesz dodać więcej dokumentów dla tego języka w projekcie. Na stronie etykietowania danych w programie Language Studio możesz wybrać język dodawanego dokumentu. Wprowadzenie większej liczby dokumentów dla tego języka do modelu jest wprowadzane do bardziej składni tego języka i uczy się przewidywać go lepiej.

Nie oczekuje się dodania tej samej liczby dokumentów dla każdego języka. Większość projektu należy utworzyć w jednym języku i dodać tylko kilka dokumentów w językach, które obserwujesz, nie działają prawidłowo. Jeśli utworzysz projekt, który jest głównie w języku angielskim i zaczniesz testować go w języku francuskim, niemieckim i hiszpańskim, możesz zauważyć, że język niemiecki nie działa, a także inne dwa języki. W takim przypadku rozważ dodanie 5% oryginalnych dokumentów w języku angielskim w języku niemieckim, wytrenuj nowy model i ponownie przetestuj go w języku niemieckim. Powinny zostać wyświetlone lepsze wyniki dla niemieckich zapytań. Tym bardziej oznaczone dokumenty, tym bardziej prawdopodobne, że wyniki będą lepsze.

Podczas dodawania danych w innym języku nie należy oczekiwać, że będzie ona negatywnie wpływać na inne języki.

Języki obsługiwane przez niestandardową klasyfikację tekstu

Niestandardowa klasyfikacja tekstu obsługuje .txt pliki w następujących językach:

Język	Kod języka
Afrikaans	`af`
Amharski	`am`
Arabski	`ar`
Asamski	`as`
Azerbejdżański	`az`
Białoruski	`be`
Bułgarski	`bg`
Bengalski	`bn`
Bretoński	`br`
Bośniacki	`bs`
Kataloński	`ca`
Czeski	`cs`
Walijski	`cy`
Duński	`da`
Niemiecki	`de`
Grecki	`el`
English (US)	`en-us`
Esperanto	`eo`
Hiszpański	`es`
Estoński	`et`
Baskijski	`eu`
Perski	`fa`
Fiński	`fi`
Francuski	`fr`
Zachodni Fryzyjscy	`fy`
Irlandzki	`ga`
Język szkocki gaelicki	`gd`
Galicyjski	`gl`
Gudżarati	`gu`
Hausa	`ha`
Hebrajski	`he`
Hindi	`hi`
Chorwacki	`hr`
Węgierski	`hu`
Ormiański	`hy`
Indonezyjski	`id`
Włoski	`it`
japoński	`ja`
Jawajski	`jv`
Gruziński	`ka`
Kazachski	`kk`
Khmerski	`km`
Kannada	`kn`
Koreański	`ko`
Kurdyjski (Kurmjski)	`ku`
Kirgiski	`ky`
Łacina	`la`
Laotański	`lo`
Litewski	`lt`
Łotewski	`lv`
Malgaski	`mg`
Macedoński	`mk`
Malayalam	`ml`
Mongolski	`mn`
Marathi	`mr`
Malajski	`ms`
Birmański	`my`
Nepalski	`ne`
Niderlandzki	`nl`
Norweski (Bokmal)	`nb`
Orija	`or`
Pendżabski	`pa`
Polski	`pl`
Paszto	`ps`
Portugalski (Brazylia)	`pt-br`
Portugalski (Portugalia)	`pt-pt`
Rumuński	`ro`
Rosyjski	`ru`
Sanskryt	`sa`
Sindhi	`sd`
Sinhala	`si`
Słowacki	`sk`
Słoweński	`sl`
Somalijski	`so`
Albański	`sq`
Serbski	`sr`
Sundanese	`su`
Szwedzki	`sv`
Suahili	`sw`
Tamilski	`ta`
Telugu	`te`
Tajlandzki	`th`
Filipino	`tl`
Turecki	`tr`
Ujgurski	`ug`
Ukraiński	`uk`
Urdu	`ur`
Uzbecki	`uz`
Wietnamski	`vi`
Xhosa	`xh`
Jidysz	`yi`
Chiński (uproszczony)	`zh-hans`
Zulu	`zu`

Udostępnij za pośrednictwem

Obsługa języka na potrzeby niestandardowej klasyfikacji tekstu

Opcja wielojęzyczna

Języki obsługiwane przez niestandardową klasyfikację tekstu

Następne kroki

Opinia

Dodatkowe zasoby