Określanie opcji tłumaczenia

4 min

Funkcja Translate interfejsu API obsługuje wiele parametrów wpływających na dane wyjściowe.

Wyrównanie wyrazów

W języku angielskim napisanym (przy użyciu skryptu łacińskiego) spacje są używane do oddzielania wyrazów. Jednak w niektórych innych językach (a dokładniej skryptów) nie zawsze tak jest.

Na przykład tłumaczenie wartości "Smart Services" z en (angielski) na zh (chiński uproszczony) daje wynik "智能服务" i trudno jest zrozumieć relację między znakami w tekście źródłowym i odpowiadającymi im znakami w tłumaczeniu. Aby rozwiązać ten problem, możesz określić parametr includeAlignment z wartością true w wywołaniu, aby wygenerować następujący wynik:

[
   {
      "translations":[
         {
            "text":"智能服务",
            "to":"zh-Hans",
            "alignment":{
               "proj":"0:4-0:1 6:13-2:3"
            }
         }
      ]
   }
]

Wyniki te informują nas, że znaki od 0 do 4 w źródle odpowiadają znakom od 0 do 1 w translacji, podczas gdy znaki od 6 do 13 w źródle odpowiadają znakom od 2 do 3 w tłumaczeniu.

Długość zdania

Czasami warto znać długość tłumaczenia, na przykład w celu określenia, jak najlepiej wyświetlać je w interfejsie użytkownika. Te informacje można uzyskać, ustawiając parametr includeSentenceLength na true.

Na przykład określenie tego parametru podczas tłumaczenia tekstu angielskiego (en) "Hello world" na francuski (fr) generuje następujące wyniki:

[
   {
      "translations":[
         {
            "text":"Salut tout le monde",
            "to":"fr",
            "sentLen":{"srcSentLen":[12],"transSentLen":[20]}
         }
      ]
   }
]

Filtrowanie wulgaryzmów

Czasami tekst zawiera wulgaryzmy, które mogą być całkowicie niejasne lub pominięte w tłumaczeniu. Możesz obsłużyć wulgaryzmy, określając parametr wulgaryzmówAction , który może mieć jedną z następujących wartości:

NoAction: Wulgaryzmy są tłumaczone wraz z resztą tekstu.
Usunięte: wulgaryzmy są pomijane w tłumaczeniu.
Oznaczone: Wulgaryzmy są wskazywane przy użyciu techniki wskazanej w parametrze wulgaryzmówMarker (jeśli podano). Wartość domyślna tego parametru to Asterisk, która zastępuje znaki w wulgaryzmach znakiem "*". Alternatywnie można określić wartość tagu wulgaryzmówMarker, co powoduje, że wulgaryzmy mają być ujęte w tagi XML.

Na przykład tłumaczenie tekstu w języku angielskim (en) "JSON to ▇▇▇▇ great!" (gdzie zablokowane słowo jest wulgaryzmem) do niemieckiego (de) z wulgaryzmemAction z Oznaczona i wulgaryzmMarker gwiazdki daje następujący wynik:

[
   {
      "translations":[
         {
            "text":"JSON ist *** erstaunlich.",
            "to":"de"
         }
      ]
   }
]

Uwaga

Aby dowiedzieć się więcej na temat opcji tłumaczenia, w tym niektórych, które nie zostały opisane tutaj, zobacz dokumentację interfejsu API usługi Azure AI Translator.

Określanie opcji tłumaczenia

Wyrównanie wyrazów

Długość zdania

Filtrowanie wulgaryzmów

Opinia