Co to są dokumenty równoległe?
Dokumenty równoległe to pary dokumentów, w których jeden jest tłumaczeniem drugiego. Jeden dokument w parze zawiera zdania w języku źródłowym, a drugi dokument zawiera te zdania przetłumaczone na język docelowy. Nie ma znaczenia, który język jest oznaczony jako „źródłowy”, a który język jest oznaczony jako „docelowy” — dokument równoległy może służyć do trenowania systemu tłumaczeniowego w obu kierunkach.
Wymagania
Aby wytrenować system, potrzebujesz co najmniej 10 000 unikatowych wyrównujących się zdań równoległych. To ograniczenie jest siecią bezpieczeństwa, aby zapewnić, że zdania równoległe zawierają wystarczająco dużo unikatowego słownictwa, aby pomyślnie wytrenować model tłumaczenia. Najlepszym rozwiązaniem jest ciągłe dodawanie bardziej równoległej zawartości i ponowne trenowanie w celu poprawy jakości systemu tłumaczenia. Aby uzyskać więcej informacji, zobaczWyrównanie zdań.
Firma Microsoft wymaga, aby dokumenty przekazane do usługi Custom Translator nie naruszały praw autorskich ani własności intelektualnej innych firm. Aby uzyskać więcej informacji, zobacz Warunki użytkowania. Przekazywanie dokumentu przy użyciu portalu nie zmienia własności własności intelektualnej w samym dokumencie.
Korzystanie z dokumentów równoległych
Dokumenty równoległe są używane przez system:
Aby dowiedzieć się, jak słowa, frazy i zdania są często mapowane między dwoma językami.
Aby dowiedzieć się, jak przetwarzać odpowiedni kontekst w zależności od otaczających fraz. Słowo może nie zawsze tłumaczyć się na dokładnie to samo słowo w innym języku.
Najlepszym rozwiązaniem jest upewnienie się, że istnieje korespondencja 1:1 zdania między wersjami źródłowymi i docelowymi dokumentów.
Jeśli projekt jest specyficzny dla domeny (kategoria), dokumenty powinny być spójne w terminologii w tej kategorii. Jakość wynikowego systemu tłumaczenia zależy od liczby zdań w zestawie dokumentów i jakości zdań. Więcej przykładów, w których dokumenty zawierają różne zastosowania dla słowa specyficznego dla danej kategorii, tym lepsze zadanie, jakie system może wykonać podczas tłumaczenia.
Przekazane dokumenty są prywatne dla każdego obszaru roboczego i mogą być używane w jak najwięcej projektów lub szkoleń. Zdania wyodrębnione z dokumentów są przechowywane oddzielnie w repozytorium jako zwykłe pliki tekstowe Unicode i są dostępne do usunięcia. Nie używaj usługi Custom Translator jako repozytorium dokumentów, nie można pobrać dokumentów w tym samym formacie, który został przekazany.