De zinnen koppelen en uitlijnen in parallelle documenten
Nadat de documenten zijn geüpload, worden zinnen in parallelle documenten gekoppeld of uitgelijnd. Custom Translator rapporteert het aantal zinnen dat het kon koppelen als de uitgelijnde zinnen in elke gegevensset.
Proces voor koppelen en uitlijnen
Custom Translator leert vertalingen van zinnen één zin tegelijk. Er wordt een zin uit de brontekst gelezen en vervolgens de vertaling van deze zin uit de doeltekst. Vervolgens worden woorden en woordgroepen in deze twee zinnen met elkaar uitgelijnd. Met dit proces kunt u een kaart maken van de woorden en woordgroepen in één zin met de equivalente woorden en woordgroepen in de vertaling van de zin. Uitlijning probeert ervoor te zorgen dat het systeem traint op zinnen die vertalingen van elkaar zijn.
Vooraf uitgelijnde documenten
Als u weet dat u parallelle documenten hebt, kunt u de uitlijning van de zin overschrijven door vooraf uitgelijnde tekstbestanden op te leveren. U kunt alle zinnen uit beide documenten extraheren in een tekstbestand, één zin per regel ordenen en uploaden met een .align
extensie. De .align
extensie geeft Custom Translator aan dat de uitlijning van zinnen moet worden overgeslagen.
Voor de beste resultaten moet u ervoor zorgen dat u één zin per regel in uw bestanden hebt. Geen nieuwe regeltekens in een zin hebben. Dit zorgt voor slechte uitlijning.
Voorgesteld minimumaantal zinnen
Voor een geslaagde training wordt in de volgende tabel het minimum aantal zinnen weergegeven dat in elk documenttype is vereist. Deze beperking is een veiligheidsnet om ervoor te zorgen dat uw parallelle zinnen voldoende unieke woordenlijst bevatten om een vertaalmodel te trainen. De algemene richtlijn heeft meer parallelle zinnen van menselijke vertalingskwaliteit in het domein, moeten modellen van hogere kwaliteit produceren.
Documenttype | Voorgestelde minimum aantal zinnen | Maximum aantal zinnen |
---|---|---|
Training | 10,000 | Geen bovengrens |
Afstemmen | 500 | 2500 |
Testen | 500 | 2500 |
Woordenlijst | 0 | 250.000 |
Notitie
- Training wordt niet gestart en mislukt als niet wordt voldaan aan het minimum aantal zinnen voor 10.000 voor training.
- Afstemming en testen zijn optioneel. Als u ze niet opgeeft, verwijdert het systeem een geschikt percentage uit de training om te gebruiken voor validatie en testen.
- U kunt een model alleen trainen met woordenlijstgegevens. Zie Wat is een woordenlijst voor meer informatie.
- De functie Documentvertaling wordt aanbevolen voor training met woordenlijsten die meer dan 250.000 zinnen bevatten. Zie Documentomzetting voor meer informatie.
- Gratis (F0) abonnementstraining heeft een maximale limiet van 2.000.000 tekens.