Sesouladění a párování vět v paralelních dokumentech
Po nahrání dokumentů se věty, které jsou přítomné v paralelních dokumentech, spárují nebo sesouladí. Custom Translator nahlásí počet vět, které se podařilo spárovat, jako sesouladěné věty v každé z datových sad.
Proces párování a zarovnání
Custom Translator se učí překlady vět po jedné větě. Přečte větu ze zdrojového textu a potom překlad této věty z cílového textu. Potom zarovná slova a fráze v těchto dvou větách k sobě navzájem. Tento proces umožňuje vytvořit mapu slov a frází v jedné větě na ekvivalentní slova a fráze v překladu věty. Zarovnání se snaží zajistit, aby systém trénuje na větách, které jsou navzájem překlady.
Předem zarovnané dokumenty
Pokud víte, že máte paralelní dokumenty, můžete zarovnání vět přepsat zadáním předem zarovnaných textových souborů. Všechny věty z obou dokumentů můžete extrahovat do textového souboru, uspořádat jednu větu na řádek a nahrát s příponou .align
. Rozšíření .align
signalizuje Custom Translator, že by měl přeskočit zarovnání vět.
Abyste dosáhli nejlepších výsledků, zkuste se ujistit, že máte v souborech jednu větu na jeden řádek. Ve větě nemáte znaky nového řádku – způsobuje špatné zarovnání.
Navrhovaný minimální počet vět
Aby bylo trénování úspěšné, uvádí následující tabulka minimální počet vět požadovaných v každém typu dokumentu. Toto omezení je bezpečnostní síť, která zajistí, aby paralelní věty obsahovaly dostatek jedinečných slov pro úspěšné trénování modelu překladu. Obecné pokyny mají větší paralelnější věty kvality překladu člověka, které by měly vytvářet modely vyšší kvality.
Typ dokumentu | Navrhovaný minimální počet vět | Maximální počet vět |
---|---|---|
Školení | 10,000 | Bez horního limitu |
Optimalizace | 500 | 2 500 |
Testování | 500 | 2 500 |
Slovník | 0 | 250,000 |
Poznámka:
- Trénování se nespustí a selže, pokud není splněno 10 000 minimálního počtu vět pro trénování.
- Ladění a testování je volitelné. Pokud je nezadáte, systém odebere příslušné procento z trénování, které se použije k ověřování a testování.
- Model můžete vytrénovat pouze pomocí dat slovníku. Další informace naleznete v tématuCo je slovník.
- Funkce Překlad dokumentů se doporučuje pro trénování se slovníky, které obsahují více než 250 000 vět. Další informace najdete v tématuPřeklad dokumentu.
- Bezplatné trénování předplatného (F0) má maximální limit 2 000 000 znaků.