Udostępnij za pośrednictwem


Parowanie i wyrównywanie zdań w dokumentach równoległych

Po przekazaniu dokumentów zdania znajdujące w dokumentach równoległych są parowane lub wyrównywane. Usługa Custom Translator zgłasza liczbę zdań, które można było sparować, jako zdania wyrównane w każdym zestawie danych.

Proces parowania i wyrównania

Usługa Custom Translator uczy się tłumaczeń zdań po jednym zdaniu naraz. Odczytuje zdanie z tekstu źródłowego, a następnie tłumaczenie tego zdania z tekstu docelowego. Następnie wyrównuje wyrazy i frazy w tych dwóch zdaniach do siebie. Ten proces umożliwia utworzenie mapy wyrazów i fraz w jednym zdaniu do równoważnych wyrazów i fraz w tłumaczeniu zdania. Wyrównanie stara się zapewnić, że system trenuje zdania, które są tłumaczeniami siebie nawzajem.

Dokumenty wstępnie wyrównane

Jeśli wiesz, że masz dokumenty równoległe, możesz zastąpić wyrównanie zdań przez podanie wstępnie wyrównanych plików tekstowych. Wszystkie zdania z obu dokumentów można wyodrębnić do pliku tekstowego, uporządkować jedno zdanie na wiersz i przekazać za pomocą .align rozszerzenia. Rozszerzenie .align sygnalizuje, że usługa Custom Translator powinna pominąć wyrównanie zdań.

Aby uzyskać najlepsze wyniki, spróbuj upewnić się, że w plikach masz jedno zdanie na wiersz. Nie ma znaków nowego wiersza w zdaniu — powoduje słabe wyrównania.

Sugerowana minimalna liczba zdań

Aby trenowanie zakończyło się pomyślnie, w poniższej tabeli przedstawiono minimalną liczbę zdań wymaganych w każdym typie dokumentu. To ograniczenie jest siecią bezpieczeństwa, aby zapewnić, że zdania równoległe zawierają wystarczająco dużo unikatowego słownictwa, aby pomyślnie wytrenować model tłumaczenia. Ogólne wytyczne mają więcej równoległych zdań w domenie jakości tłumaczenia ludzkiego powinny produkować modele o wyższej jakości.

Document type Sugerowana minimalna liczba zdań Maksymalna liczba zdań
Szkolenia 10,000 Brak górnego limitu
Dostrajanie 500 2500
Testowanie 500 2500
Słownik 0 250 000

Uwaga

  • Trenowanie nie rozpoczyna się i kończy się niepowodzeniem, jeśli minimalna liczba zdań 10 000 nie zostanie spełnina.
  • Dostrajanie i testowanie są opcjonalne. Jeśli ich nie podasz, system usunie odpowiedni procent z trenowania do użycia na potrzeby walidacji i testowania.
  • Model można wytrenować przy użyciu tylko danych słownika. Aby uzyskać więcej informacji, zobaczCo to jest słownik.
  • Funkcja tłumaczenia dokumentów jest zalecana do trenowania z słownikami zawierającymi więcej niż 250 000 zdań. Aby uzyskać więcej informacji, zobaczTłumaczenie dokumentów.
  • Trenowanie bezpłatnej subskrypcji (F0) ma maksymalny limit 2000 000 znaków.

Następne kroki