Sdílet prostřednictvím


Termíny klíče služby Custom Translator

Následující tabulka obsahuje seznam klíčových termínů, které můžete najít při práci se službou Custom Translator.

Slovo nebo fráze Definice
Zdrojový jazyk Zdrojový jazyk je počáteční jazyk, který chcete převést na jiný jazyk (cíl).
Cílový jazyk Cílový jazyk je jazyk, který má strojový překlad poskytnout po přijetí zdrojového jazyka.
Monolinguální soubor Monolinguální soubor má jeden jazyk, který není spárovaný s jiným souborem jiného jazyka.
Paralelní soubory Paralelní soubor je kombinací dvou souborů s odpovídajícím textem. Jeden soubor má zdrojový jazyk. Druhý má cílový jazyk.
Zarovnání vět Paralelní datová sada musí mít zarovnané věty na věty, které představují stejný text v obou jazycích. Například ve zdrojovém paralelním souboru by první věta měla teoreticky namapovat na první větu v cílovém paralelním souboru.
Zarovnaný text Jedním z nejdůležitějších kroků ověření souboru je zarovnání vět v paralelních dokumentech. Věci jsou vyjádřeny odlišně v různých jazycích. Různé jazyky mají také různé pořadí slov. Tento krok provede úlohu sladění vět se stejným obsahem, aby je bylo možné použít k trénování. Zarovnání nízké věty znamená, že u jednoho nebo obou souborů může být něco špatně.
Dělení slov / zrušení přerušení Dělení slov je funkce označení hranic mezi slovy. Mnoho systémů psaní používá mezeru k označení hranice mezi slovy. Zrušení slova odkazuje na odebrání jakékoli viditelné značky, která mohla být vložena mezi slova v předchozím kroku.
Oddělovače Oddělovače jsou způsoby rozdělení věty do segmentů nebo oddělovače okrajů mezi větami. Například v anglických mezerách odděluje slova, dvojtečky a středníky oddělovače klauzule a tečky oddělují věty.
Trénovací soubory Trénovací soubor slouží k výuce systému strojového překladu, jak mapovat z jednoho jazyka (zdroje) na cílový jazyk (cíl). Čím více dat zadáte, tím lépe systém bude fungovat.
Ladění souborů Tyto soubory se často náhodně odvozují z trénovací sady (pokud nevyberete sadu ladění). Věty jsou automaticky vybrané a používají se k ladění systému a k zajištění správného fungování. Pokud chcete vytvořit model pro obecné účely překladu a vytvořit vlastní soubory ladění, ujistěte se, že se jedná o náhodnou sadu vět napříč doménami.
Testování souborů Tyto soubory jsou často odvozené soubory, náhodně vybrané z trénovací sady (pokud nevyberete žádnou testovací sadu). Účelem těchto vět je vyhodnotit přesnost modelu překladu. Abyste měli jistotu, že systém přesně přeloží tyto věty, můžete chtít vytvořit testovací sadu a nahrát ji do překladače. Tím zajistíte, že se věty použijí ve vyhodnocení systému (generování skóre BLEU).
Soubor se seznamem Typ souboru, ve kterém jsou zdrojové a přeložené věty obsaženy ve stejném souboru. Podporované formáty souborů (TMX, XLIFF, XLF, ICI a XLSX).
Archivní soubor Soubor, který obsahuje další soubory. Podporované formáty souborů (zip, gz, tgz).
Skóre BLEU BLEU je oborová standardní metoda pro vyhodnocení "přesnosti" nebo přesnosti modelu překladu. I když existují i jiné metody vyhodnocení, Microsoft Translator spoléhá na metodu BLEU k hlášení přesnosti vlastníkům projektů.