Taalondersteuning voor aangepaste herkenning van benoemde entiteiten
Gebruik dit artikel voor meer informatie over de talen die momenteel worden ondersteund door de functie voor herkenning van aangepaste benoemde entiteiten.
Optie voor meerdere talen
Met aangepaste NER kunt u een model trainen in één taal en gebruiken om entiteiten uit documenten in een andere taal te extraheren. Deze functie is krachtig omdat het helpt tijd en moeite te besparen. In plaats van afzonderlijke projecten te bouwen voor elke taal, kunt u meerdere linguïsuele gegevenssets in één project afhandelen. Uw gegevensset hoeft niet volledig in dezelfde taal te staan, maar u moet de optie voor meerdere talen voor uw project inschakelen tijdens het maken of later in projectinstellingen. Als u merkt dat uw model slecht presteert in bepaalde talen tijdens het evaluatieproces, kunt u overwegen om meer gegevens in deze talen toe te voegen aan uw trainingsset.
U kunt uw project volledig trainen met Engelse documenten en er query's op uitvoeren in: Frans, Duits, Mandarijn, Japans, Koreaans en andere documenten. Met aangepaste entiteitsherkenning kunt u uw projecten eenvoudig schalen naar meerdere talen met behulp van meertalige technologie om uw modellen te trainen.
Wanneer u identificeert dat een bepaalde taal niet goed presteert en andere talen, kunt u meer documenten toevoegen voor die taal in uw project. Op de pagina voor gegevenslabels in Language Studio kunt u de taal selecteren van het document dat u toevoegt. Wanneer u meer documenten voor die taal aan het model introduceert, wordt deze geïntroduceerd in meer syntaxis van die taal en leert om deze beter te voorspellen.
U verwacht niet dat u voor elke taal hetzelfde aantal documenten toevoegt. U moet het merendeel van uw project in één taal bouwen en slechts enkele documenten toevoegen in talen die u ziet, presteren niet goed. Als u een project maakt dat zich voornamelijk in het Engels bevindt en begint met het testen ervan in het Frans, Duits en Spaans, ziet u mogelijk dat Het Duits niet goed presteert en de andere twee talen. In dat geval kunt u overwegen om 5% van uw oorspronkelijke Engelse documenten in het Duits toe te voegen, een nieuw model te trainen en opnieuw in het Duits te testen. U ziet betere resultaten voor Duitse query's. Hoe meer gelabelde documenten u toevoegt, hoe waarschijnlijker de resultaten worden.
Wanneer u gegevens in een andere taal toevoegt, moet u niet verwachten dat deze negatieve gevolgen hebben voor andere talen.
Taalondersteuning
Aangepaste NER ondersteunt .txt
bestanden in de volgende talen:
Taal | Taalcode |
---|---|
Afrikaans | af |
Amhaars | am |
Arabisch | ar |
Assamees | as |
Azerbeidzjaans | az |
Wit-Russisch | be |
Bulgaars | bg |
Bengaals | bn |
Bretons | br |
Bosnisch | bs |
Catalaans | ca |
Tsjechisch | cs |
Welsh | cy |
Deens | da |
Duits | de |
Grieks | el |
English (US) | en-us |
Esperanto | eo |
Spaans | es |
Ests | et |
Baskisch | eu |
Perzisch | fa |
Fins | fi |
Frans | fr |
West-Fries | fy |
Iers | ga |
Schots-Gaelisch | gd |
Galicisch | gl |
Gujarati | gu |
Hausa | ha |
Hebreeuws | he |
Hindi | hi |
Kroatisch | hr |
Hongaars | hu |
Armeens | hy |
Indonesisch | id |
Italiaans | it |
Japans | ja |
Javaans | jv |
Georgisch | ka |
Kazachs | kk |
Khmer | km |
Kannada | kn |
Koreaans | ko |
Koerdisch (Kurmanji) | ku |
Kirgizisch | ky |
Latijn | la |
Laotiaans | lo |
Litouws | lt |
Lets | lv |
Malagasy | mg |
Macedonisch | mk |
Malayalam | ml |
Mongools | mn |
Mahrati | mr |
Maleisisch | ms |
Birmaans | my |
Nepalees | ne |
Nederlands | nl |
Noors (Bokmal) | nb |
Odia | or |
Punjabi | pa |
Pools | pl |
Pasjtoe | ps |
Portugees (Brazilië) | pt-br |
Portugees (Portugal) | pt-pt |
Roemeens | ro |
Russisch | ru |
Sanskriet | sa |
Sindhi | sd |
Sinhala | si |
Slowaaks | sk |
Sloveens | sl |
Somali | so |
Albanees | sq |
Servisch | sr |
Soendanees | su |
Zweeds | sv |
Swahili | sw |
Tamil | ta |
Telugu | te |
Thai | th |
Filipino | tl |
Turks | tr |
Oeigoers | ug |
Oekraïens | uk |
Urdu | ur |
Oezbeeks | uz |
Vietnamees | vi |
Xhosa | xh |
Jiddisch | yi |
Chinees (Vereenvoudigd) | zh-hans |
Zulu | zu |