Parowanie i wyrównywanie zdań w dokumentach równoległych
Po przekazaniu dokumentów zdania znajdujące w dokumentach równoległych są parowane lub wyrównywane. Usługa Custom Translator zgłasza liczbę zdań, które można było sparować, jako zdania wyrównane w każdym zestawie danych.
Proces parowania i wyrównania
Usługa Custom Translator uczy się tłumaczeń zdań po jednym zdaniu naraz. Odczytuje zdanie z tekstu źródłowego, a następnie tłumaczenie tego zdania z tekstu docelowego. Następnie wyrównuje wyrazy i frazy w tych dwóch zdaniach do siebie. Ten proces umożliwia utworzenie mapy wyrazów i fraz w jednym zdaniu do równoważnych wyrazów i fraz w tłumaczeniu zdania. Wyrównanie stara się zapewnić, że system trenuje zdania, które są tłumaczeniami siebie nawzajem.
Dokumenty wstępnie wyrównane
Jeśli wiesz, że masz dokumenty równoległe, możesz zastąpić wyrównanie zdań przez podanie wstępnie wyrównanych plików tekstowych. Wszystkie zdania z obu dokumentów można wyodrębnić do pliku tekstowego, uporządkować jedno zdanie na wiersz i przekazać za pomocą .align
rozszerzenia. Rozszerzenie .align
sygnalizuje, że usługa Custom Translator powinna pominąć wyrównanie zdań.
Aby uzyskać najlepsze wyniki, spróbuj upewnić się, że w plikach masz jedno zdanie na wiersz. Nie ma znaków nowego wiersza w zdaniu — powoduje słabe wyrównania.
Sugerowana minimalna liczba zdań
Aby trenowanie zakończyło się pomyślnie, w poniższej tabeli przedstawiono minimalną liczbę zdań wymaganych w każdym typie dokumentu. To ograniczenie jest siecią bezpieczeństwa, aby zapewnić, że zdania równoległe zawierają wystarczająco dużo unikatowego słownictwa, aby pomyślnie wytrenować model tłumaczenia. Ogólne wytyczne mają więcej równoległych zdań w domenie jakości tłumaczenia ludzkiego powinny produkować modele o wyższej jakości.
Document type | Sugerowana minimalna liczba zdań | Maksymalna liczba zdań |
---|---|---|
Szkolenia | 10,000 | Brak górnego limitu |
Dostrajanie | 500 | 2500 |
Testowanie | 500 | 2500 |
Słownik | 0 | 250 000 |
Uwaga
- Trenowanie nie rozpoczyna się i kończy się niepowodzeniem, jeśli minimalna liczba zdań 10 000 nie zostanie spełnina.
- Dostrajanie i testowanie są opcjonalne. Jeśli ich nie podasz, system usunie odpowiedni procent z trenowania do użycia na potrzeby walidacji i testowania.
- Model można wytrenować przy użyciu tylko danych słownika. Aby uzyskać więcej informacji, zobaczCo to jest słownik.
- Funkcja tłumaczenia dokumentów jest zalecana do trenowania z słownikami zawierającymi więcej niż 250 000 zdań. Aby uzyskać więcej informacji, zobaczTłumaczenie dokumentów.
- Trenowanie bezpłatnej subskrypcji (F0) ma maksymalny limit 2000 000 znaków.