Termíny klíče služby Custom Translator

Článek
09/01/2024

Následující tabulka obsahuje seznam klíčových termínů, které můžete najít při práci se službou Custom Translator.

Slovo nebo fráze	Definice
Zdrojový jazyk	Zdrojový jazyk je počáteční jazyk, který chcete převést na jiný jazyk (cíl).
Cílový jazyk	Cílový jazyk je jazyk, který má strojový překlad poskytnout po přijetí zdrojového jazyka.
Monolinguální soubor	Monolinguální soubor má jeden jazyk, který není spárovaný s jiným souborem jiného jazyka.
Paralelní soubory	Paralelní soubor je kombinací dvou souborů s odpovídajícím textem. Jeden soubor má zdrojový jazyk. Druhý má cílový jazyk.
Zarovnání vět	Paralelní datová sada musí mít zarovnané věty na věty, které představují stejný text v obou jazycích. Například ve zdrojovém paralelním souboru by první věta měla teoreticky namapovat na první větu v cílovém paralelním souboru.
Zarovnaný text	Jedním z nejdůležitějších kroků ověření souboru je zarovnání vět v paralelních dokumentech. Věci jsou vyjádřeny odlišně v různých jazycích. Různé jazyky mají také různé pořadí slov. Tento krok provede úlohu sladění vět se stejným obsahem, aby je bylo možné použít k trénování. Zarovnání nízké věty znamená, že u jednoho nebo obou souborů může být něco špatně.
Dělení slov / zrušení přerušení	Dělení slov je funkce označení hranic mezi slovy. Mnoho systémů psaní používá mezeru k označení hranice mezi slovy. Zrušení slova odkazuje na odebrání jakékoli viditelné značky, která mohla být vložena mezi slova v předchozím kroku.
Oddělovače	Oddělovače jsou způsoby rozdělení věty do segmentů nebo oddělovače okrajů mezi větami. Například v anglických mezerách odděluje slova, dvojtečky a středníky oddělovače klauzule a tečky oddělují věty.
Trénovací soubory	Trénovací soubor slouží k výuce systému strojového překladu, jak mapovat z jednoho jazyka (zdroje) na cílový jazyk (cíl). Čím více dat zadáte, tím lépe systém bude fungovat.
Ladění souborů	Tyto soubory se často náhodně odvozují z trénovací sady (pokud nevyberete sadu ladění). Věty jsou automaticky vybrané a používají se k ladění systému a k zajištění správného fungování. Pokud chcete vytvořit model pro obecné účely překladu a vytvořit vlastní soubory ladění, ujistěte se, že se jedná o náhodnou sadu vět napříč doménami.
Testování souborů	Tyto soubory jsou často odvozené soubory, náhodně vybrané z trénovací sady (pokud nevyberete žádnou testovací sadu). Účelem těchto vět je vyhodnotit přesnost modelu překladu. Abyste měli jistotu, že systém přesně přeloží tyto věty, můžete chtít vytvořit testovací sadu a nahrát ji do překladače. Tím zajistíte, že se věty použijí ve vyhodnocení systému (generování skóre BLEU).
Soubor se seznamem	Typ souboru, ve kterém jsou zdrojové a přeložené věty obsaženy ve stejném souboru. Podporované formáty souborů (TMX, XLIFF, XLF, ICI a XLSX).
Archivní soubor	Soubor, který obsahuje další soubory. Podporované formáty souborů (zip, gz, tgz).
Skóre BLEU	BLEU je oborová standardní metoda pro vyhodnocení "přesnosti" nebo přesnosti modelu překladu. I když existují i jiné metody vyhodnocení, Microsoft Translator spoléhá na metodu BLEU k hlášení přesnosti vlastníkům projektů.