Sprachunterstützung für die benutzerdefinierte Textklassifizierung
In diesem Artikel erfahren Sie mehr zu den Sprachen, die derzeit vom Feature „benutzerdefinierte Textklassifizierung“ unterstützt werden.
Option für mehrere Sprachen
Mit der benutzerdefinierten Textklassifizierung können Sie ein Modell in einer Sprache trainieren und Dokumente in einer anderen Sprache klassifizieren. Dieses Feature ist nützlich, da Sie damit Zeit und Aufwand sparen. Anstelle separate Projekte für jede Sprache erstellen zu müssen, können Sie ein mehrsprachiges Dataset in einem Projekt verwenden. Ihr Dataset muss nicht vollständig in einer Sprache sein, Sie sollten jedoch während der Erstellung die Option für mehrere Sprachen für Ihr Projekt aktivieren oder dies später in den Projekteinstellungen nachholen. Wenn Sie während des Auswertungsprozesses feststellen, dass Ihr Modell in bestimmten Sprachen eine schlechte Leistung aufweist, sollten Sie Ihrem Trainingssatz weitere Daten in den betreffenden Sprachen hinzufügen.
Sie können Ihr Projekt vollständig mit englischen Dokumenten trainieren und es dann in folgenden Sprachen abfragen: Französisch, Deutsch, Mandarin, Japanisch, Koreanisch und weiteren. Mithilfe der benutzerdefinierten Textklassifizierung können Sie Ihre Projekte auf einfache Weise auf mehrere Sprachen skalieren, indem Sie Mehrsprachentechnologie zum Trainieren Ihrer Modelle verwenden.
Wenn Sie feststellen, dass eine bestimmte Sprache nicht so gut funktioniert wie andere Sprachen, können Sie Ihrem Projekt weitere Dokumente für diese Sprache hinzufügen. Auf der Seite Datenbeschriftung in Language Studio können Sie die Sprache des Dokuments auswählen, das Sie hinzufügen. Wenn Sie weitere Dokumente für die betreffende Sprache in das Modell einführen, wird dem Modell die Syntax dieser Sprache besser verständlich, und es lernt, sie besser vorherzusagen.
Sie müssen nicht für jede Sprache dieselbe Anzahl an Dokumenten hinzufügen. Sie sollten den Großteil Ihres Projekts in einer Sprache erstellen und nur wenige Dokumente in Sprachen hinzufügen, für die Sie eine nicht zufrieden stellende Leistung beobachten. Wenn Sie ein Projekt erstellen, das hauptsächlich englisch ist, und damit beginnen, es in Französisch, Deutsch und Spanisch zu testen, stellen Sie möglicherweise fest, dass Deutsch nicht so gut funktioniert wie die anderen beiden Sprachen. Ziehen Sie in diesem Fall in Betracht, 5 % Ihrer ursprünglichen englischen Dokumente auf Deutsch hinzuzufügen, ein neues Modell zu trainieren und es erneut auf Deutsch zu testen. Für deutsche Abfragen sollten dann bessere Ergebnisse erzielt werden. Je mehr beschriftete Dokumente Sie hinzufügen, desto größer ist die Wahrscheinlichkeit, dass die Ergebnisse besser werden.
Wenn Sie Daten in einer weiteren Sprache hinzufügen, brauchen Sie in der Regel nicht mit negativen Auswirkungen auf die anderen Sprachen zu rechnen.
Von der benutzerdefinierten Textklassifizierung unterstützte Sprachen
Die benutzerdefinierte Textklassifizierung unterstützt .txt
-Dateien in den folgenden Sprachen:
Sprache | Sprachcode |
---|---|
Afrikaans | af |
Amharisch | am |
Arabisch | ar |
Assamesisch | as |
Aserbaidschanisch | az |
Belarussisch | be |
Bulgarisch | bg |
Bengali | bn |
Bretonisch | br |
Bosnisch | bs |
Katalanisch | ca |
Tschechisch | cs |
Walisisch | cy |
Dänisch | da |
Deutsch | de |
Griechisch | el |
Englisch (USA) | en-us |
Esperanto | eo |
Spanisch | es |
Estnisch | et |
Baskisch | eu |
Persisch | fa |
Finnisch | fi |
Französisch | fr |
Westfriesisch | fy |
Irisch | ga |
Schottisch-Gälisch | gd |
Galizisch | gl |
Gujarati | gu |
Haussa | ha |
Hebräisch | he |
Hindi | hi |
Kroatisch | hr |
Ungarisch | hu |
Armenisch | hy |
Indonesisch | id |
Italienisch | it |
Japanisch | ja |
Javanisch | jv |
Georgisch | ka |
Kasachisch | kk |
Khmer | km |
Kannada | kn |
Koreanisch | ko |
Kurdisch (Kurmanji) | ku |
Kirgisisch | ky |
Lateinisch | la |
Laotisch | lo |
Litauisch | lt |
Lettisch | lv |
Madagassisch | mg |
Mazedonisch | mk |
Malayalam | ml |
Mongolisch | mn |
Marathi | mr |
Malaiisch | ms |
Birmanisch | my |
Nepalesisch | ne |
Niederländisch | nl |
Norwegisch (Bokmål) | nb |
Odia | or |
Pandschabi | pa |
Polnisch | pl |
Paschtu | ps |
Portugiesisch (Brasilien) | pt-br |
Portugiesisch (Portugal) | pt-pt |
Rumänisch | ro |
Russisch | ru |
Sanskrit | sa |
Sindhi | sd |
Singhalesisch | si |
Slowakisch | sk |
Slowenisch | sl |
Somali | so |
Albanisch | sq |
Serbisch | sr |
Sundanesisch | su |
Schwedisch | sv |
Suaheli | sw |
Tamilisch | ta |
Telugu | te |
Thailändisch | th |
Filipino | tl |
Türkisch | tr |
Uigurisch | ug |
Ukrainisch | uk |
Urdu | ur |
Usbekisch | uz |
Vietnamesisch | vi |
Xhosa | xh |
Jiddisch | yi |
Chinesisch (vereinfacht) | zh-hans |
Zulu | zu |