Termíny klíče služby Custom Translator
Následující tabulka obsahuje seznam klíčových termínů, které můžete najít při práci se službou Custom Translator.
Slovo nebo fráze | Definice |
---|---|
Zdrojový jazyk | Zdrojový jazyk je počáteční jazyk, který chcete převést na jiný jazyk (cíl). |
Cílový jazyk | Cílový jazyk je jazyk, který má strojový překlad poskytnout po přijetí zdrojového jazyka. |
Monolinguální soubor | Monolinguální soubor má jeden jazyk, který není spárovaný s jiným souborem jiného jazyka. |
Paralelní soubory | Paralelní soubor je kombinací dvou souborů s odpovídajícím textem. Jeden soubor má zdrojový jazyk. Druhý má cílový jazyk. |
Zarovnání vět | Paralelní datová sada musí mít zarovnané věty na věty, které představují stejný text v obou jazycích. Například ve zdrojovém paralelním souboru by první věta měla teoreticky namapovat na první větu v cílovém paralelním souboru. |
Zarovnaný text | Jedním z nejdůležitějších kroků ověření souboru je zarovnání vět v paralelních dokumentech. Věci jsou vyjádřeny odlišně v různých jazycích. Různé jazyky mají také různé pořadí slov. Tento krok provede úlohu sladění vět se stejným obsahem, aby je bylo možné použít k trénování. Zarovnání nízké věty znamená, že u jednoho nebo obou souborů může být něco špatně. |
Dělení slov / zrušení přerušení | Dělení slov je funkce označení hranic mezi slovy. Mnoho systémů psaní používá mezeru k označení hranice mezi slovy. Zrušení slova odkazuje na odebrání jakékoli viditelné značky, která mohla být vložena mezi slova v předchozím kroku. |
Oddělovače | Oddělovače jsou způsoby rozdělení věty do segmentů nebo oddělovače okrajů mezi větami. Například v anglických mezerách odděluje slova, dvojtečky a středníky oddělovače klauzule a tečky oddělují věty. |
Trénovací soubory | Trénovací soubor slouží k výuce systému strojového překladu, jak mapovat z jednoho jazyka (zdroje) na cílový jazyk (cíl). Čím více dat zadáte, tím lépe systém bude fungovat. |
Ladění souborů | Tyto soubory se často náhodně odvozují z trénovací sady (pokud nevyberete sadu ladění). Věty jsou automaticky vybrané a používají se k ladění systému a k zajištění správného fungování. Pokud chcete vytvořit model pro obecné účely překladu a vytvořit vlastní soubory ladění, ujistěte se, že se jedná o náhodnou sadu vět napříč doménami. |
Testování souborů | Tyto soubory jsou často odvozené soubory, náhodně vybrané z trénovací sady (pokud nevyberete žádnou testovací sadu). Účelem těchto vět je vyhodnotit přesnost modelu překladu. Abyste měli jistotu, že systém přesně přeloží tyto věty, můžete chtít vytvořit testovací sadu a nahrát ji do překladače. Tím zajistíte, že se věty použijí ve vyhodnocení systému (generování skóre BLEU). |
Soubor se seznamem | Typ souboru, ve kterém jsou zdrojové a přeložené věty obsaženy ve stejném souboru. Podporované formáty souborů (TMX, XLIFF, XLF, ICI a XLSX). |
Archivní soubor | Soubor, který obsahuje další soubory. Podporované formáty souborů (zip, gz, tgz). |
Skóre BLEU | BLEU je oborová standardní metoda pro vyhodnocení "přesnosti" nebo přesnosti modelu překladu. I když existují i jiné metody vyhodnocení, Microsoft Translator spoléhá na metodu BLEU k hlášení přesnosti vlastníkům projektů. |