Terminy klucza niestandardowego usługi Translator
W poniższej tabeli przedstawiono listę kluczowych terminów, które można znaleźć podczas pracy z usługą Custom Translator.
Wyraz lub fraza | Definicja |
---|---|
Język źródłowy | Język źródłowy to język początkowy, który ma zostać przekonwertowany na inny język (element docelowy). |
Język docelowy | Język docelowy to język, który ma być zapewniany przez tłumaczenie maszynowe po odebraniu języka źródłowego. |
Jednojęzyczny plik | Jednojęzyczny plik ma jeden język, który nie jest sparowany z innym plikiem innego języka. |
Pliki równoległe | Plik równoległy jest kombinacją dwóch plików z odpowiednim tekstem. Jeden plik ma język źródłowy. Drugi ma język docelowy. |
Wyrównanie zdań | Zestaw danych równoległych musi mieć wyrównane zdania do zdań reprezentujących ten sam tekst w obu językach. Na przykład w źródłowym pliku równoległym pierwsze zdanie powinno, teoretycznie, zamapować na pierwsze zdanie w docelowym pliku równoległym. |
Wyrównany tekst | Jednym z najważniejszych kroków weryfikacji pliku jest wyrównanie zdań w dokumentach równoległych. Elementy są wyrażane inaczej w różnych językach. Ponadto różne języki mają różne kolejność wyrazów. Ten krok wykonuje zadanie wyrównywania zdań z tą samą zawartością, aby można było ich używać do trenowania. Wyrównanie małego zdania wskazuje, że może wystąpić problem z jednym lub obydwoma plikami. |
Niezgodność wyrazów/ rozłączanie | Podział wyrazów to funkcja oznaczania granic między wyrazami. Wiele systemów pisania używa przestrzeni, aby określić granicę między wyrazami. Usuwanie wyrazów oznacza usunięcie dowolnego widocznego znacznika, który mógł zostać wstawiony między wyrazami w poprzednim kroku. |
Ograniczniki | Ograniczniki to sposoby dzielenia zdania na segmenty lub ograniczniki marginesu między zdaniami. Na przykład w angielskich spacjach ograniczniki wyrazów, dwukropków i średników ograniczników oraz ograniczników kropek. |
Pliki szkoleniowe | Plik szkoleniowy służy do uczenia systemu tłumaczenia maszynowego, jak mapować z jednego języka (źródła) na język docelowy (docelowy). Tym więcej danych zapewniasz, tym lepiej będzie działać system. |
Dostrajanie plików | Te pliki są często losowo pochodzące z zestawu treningowego (jeśli nie wybierzesz zestawu dostrajania). Zdania są wybierane automatycznie i używane do dostrajania systemu i zapewniają prawidłowe działanie. Jeśli chcesz utworzyć model tłumaczenia ogólnego przeznaczenia i utworzyć własne pliki dostrajania, upewnij się, że są to losowy zestaw zdań między domenami |
Testowanie plików | Te pliki są często plikami pochodnymi, losowo wybieranymi z zestawu treningowego (jeśli nie wybierzesz żadnego zestawu testów). Celem tych zdań jest ocena dokładności modelu tłumaczenia. Aby upewnić się, że system dokładnie tłumaczy te zdania, możesz utworzyć zestaw testowy i przekazać go do tłumacza. Dzięki temu zdania będą używane w ocenie systemu (generowanie wyniku BLEU). |
Plik kombi | Typ pliku, w którym źródłowe i przetłumaczone zdania znajdują się w tym samym pliku. Obsługiwane formaty plików (TMX, XLIFF, XLF, ICI i XLSX). |
Plik archiwum | Plik zawierający inne pliki. Obsługiwane formaty plików (zip, gz, tgz). |
Wynik BLEU | BLEU jest standardową metodą oceny "precyzji" lub dokładności modelu tłumaczenia. Chociaż istnieją inne metody oceny, usługa Microsoft Translator opiera się na metodzie BLEU, aby zgłosić dokładność właścicielom projektów. |