Vytváření a správa trénovacích dokumentů
Custom Translator umožňuje vytvářet modely překladu, které odpovídají terminologii a stylu specifické pro vaši firmu, odvětví a doménu. Trénování a nasazení vlastního modelu je snadné a nevyžaduje žádné programovací dovednosti. Custom Translator umožňuje nahrávat paralelní soubory, soubory paměti překladu nebo soubory ZIP.
Paralelní dokumenty jsou dvojice dokumentů, kde jeden (cíl) je překlad druhého (zdroje). Jeden dokument ve dvojici obsahuje věty ve zdrojovém jazyce a druhý dokument obsahuje věty přeložené do cílového jazyka.
Než nahrajete dokumenty, projděte si pokyny pro zásady vytváření názvů a formátů dokumentů a ujistěte se, že Custom Translator podporuje váš formát souborů.
Jak vytvořit sady dokumentů
Hledání dat kvality v doméně je často náročný úkol, který se liší podle klasifikace uživatelů. Tady je několik otázek, které se můžete zeptat sami sebe, když vyhodnotíte, jaká data vám můžou být k dispozici:
Má vaše společnost k dispozici předchozí data překladu, která můžete použít? Podniky často mají velké množství dat překladu, které se hromadí v průběhu mnoha let používání lidského překladu.
Máte obrovské množství monolinguálních dat? Monolinguální data jsou data pouze v jednom jazyce. Pokud ano, můžete získat překlady těchto dat?
Můžete procházet online portály a shromažďovat zdrojové věty a syntetizovat cílové věty?
Trénovací materiály pro jednotlivé typy dokumentů
Zdroj | Jak funguje | Pravidla, která se mají dodržovat |
---|---|---|
Dvojjazyčné školicí dokumenty | Naučí systém terminologii a styl. | Buďte svobodní. Jakýkoli překlad člověka v doméně je lepší než strojový překlad. Při přidávání a odebírání dokumentů a pokuste se skóre vylepšitBLEU . |
Ladění dokumentů | Trénuje parametry neurálního strojového překladu. | Buďte striktní. Napište je tak, aby byly optimálně reprezentativní pro to, co budete v budoucnu překládat. |
Testování dokumentů | BLEU Výpočet skóre |
Buďte striktní. Vytvořte testovací dokumenty, které budou optimálně reprezentovat to, co plánujete v budoucnu přeložit. |
Slovník frází | Vynutí daný překlad 100 % času. | Buďte omezující. Slovník frází se rozlišují malá a velká písmena a každé slovo nebo fráze uvedené se přeloží tak, jak zadáte. V mnoha případech je lepší nepoužívat slovník frází a nechat systém učit se. |
Slovník vět | Vynutí daný překlad 100 % času. | Buďte striktní. Slovník vět je nerozlišující velká a malá písmena a je vhodný pro běžné v krátkých větách domény. Aby došlo ke shodě slovníku vět, musí celá odeslaná věta odpovídat položce zdrojového slovníku. Pokud se shoduje jenom část věty, položka se neshoduje. |
Jak nahrát dokumenty
Typy dokumentů jsou přidružené ke dvojici jazyků vybrané při vytváření projektu.
Přihlaste se k portálu Custom Translator . Výchozí pracovní prostor se načte a zobrazí se seznam dříve vytvořených projektů.
Vyberte požadovaný název projektu. Ve výchozím nastavení je vybráno okno Spravovat dokumenty a zobrazí se seznam dříve nahraných dokumentů.
Vyberte Přidat sadu dokumentů a zvolte typ dokumentu:
- Trénovací sada
- Testovací sada
- Sada ladění
- Sada slovníků:
- Slovník frází
- Slovník vět
Vyberte Další.
Poznámka:
Při výběru sady slovníků se spustí dialogové okno Zvolit typ slovníku. Zvolte jednu a vyberte Další.
Vyberte formát dokumentů z přepínačů.
- V případě paralelních dokumentů vyplňte
Document set name
a vyberte Procházet soubory , abyste vybrali zdrojové a cílové dokumenty. - V případě souboru TM (Translation Memory) nebo Nahrání více sad pomocí příkazu ZIP vyberte soubor procházet soubory .
- V případě paralelních dokumentů vyplňte
Vyberte Odeslat.
V tomto okamžiku služba Custom Translator zpracovává vaše dokumenty a pokouší se extrahovat věty, jak je uvedeno v oznámení o nahrání. Po dokončení zpracování se zobrazí oznámení o úspěšném nahrání.
Zobrazení historie nahrávání
Na stránce pracovního prostoru můžete zobrazit historii všech dokumentů, které nahrávají podrobnosti, jako je typ dokumentu, dvojice jazyků, stav nahrávání atd.
Na kartě Historie nahrávání se zobrazuje historie ze stránky pracovního prostoru portálu Custom Translator .
Tato stránka zobrazuje stav všech vašich minulých nahrání. Zobrazí se nahrání z nejnovějšího do nejnovějšího. Každý stav nahrávání zobrazuje název dokumentu, vytvořený podle, stav nahrání, datum nahrání, počet nahraných souborů, typ nahraných souborů a páry jazyka. Pomocí filtru můžete rychle najít dokumenty podle názvu, stavu, jazyka a rozsahu dat.
Na stránce s podrobnostmi o historii nahrávání se zobrazují soubory nahrané jako součást stavu nahrání souboru, jazyka souboru a chybové zprávy (pokud při nahrávání dojde k chybě).
Další kroky
- Naučte se trénovat model.
- Naučte se testovat a vyhodnocovat kvalitu modelu.
- Zjistěte , jak publikovat model.
- Naučte se překládat s vlastními modely.