並列ドキュメントの文のペアリングとアライン

[アーティクル]
02/06/2025

ドキュメントがアップロードされると、並列ドキュメントに存在する文がペアリングまたはアラインされます。 Custom Translator では、各データセットの [Aligned Sentences](アライン済みの文) として、ペアリングできる文の数がレポートされます。

ペアリングとアラインのプロセス

Custom Translator では、一度に 1 文ずつ、文の翻訳が学習されます。ソーステキストから文が読み取られた後、ターゲットテキストからその文の翻訳が読み取られます。次に、2 つの文に含まれる単語とフレーズが相互にアラインされます。このプロセスによって、ある文の単語とフレーズから、その文の翻訳に含まれる同義の単語とフレーズへのマップを作成できるようになります。アラインでは、相互の翻訳である文に対してシステムが確実にトレーニングされるように試行します。

事前にアラインされたドキュメント

並列ドキュメントがあることがわかっている場合は、事前にアラインされたテキストファイルを提供して、文のアラインをオーバーライドできます。両方のドキュメントのすべての文をテキストファイルに抽出し、1 行に 1 文を構成し、.align の拡張子でアップロードすることができます。 .align の拡張子で、文のアラインをスキップする必要があることを Custom Translator に指示します。

最適な結果を得るために、ファイルの 1 行に 1 文ずつを含めます。文中には改行文字を入れないでください。不適切なアライン結果になります。

推奨される文の最小数

次の表では、トレーニングを成功させるために各ドキュメントの種類で必要な文の最小数を示します。 この制限は、翻訳モデルのトレーニングを成功させるために、並列文に十分な一意のボキャブラリが確実に含まれるようにするための安全策です。一般的なガイドラインとして、人間による翻訳品質のドメイン内並列文が多くなると、より高品質のモデルが生成されます。

ドキュメントの種類	推奨される文の最小数	文の最大数
トレーニング	10,000	上限なし
チューニング	500	2,500
テスト	500	2,500
Dictionary	0	250,000

Note

トレーニングの最小文数が 10,000 に満たされていない場合、トレーニングは開始されず、失敗します。
チューニングとテストはオプションです。これらを指定しないと、確認とテストに使用するためのトレーニングからの適切な比率がシステムで削除されます。
モデルは、辞書データのみを使用してトレーニングすることができます。詳細については、「辞書とは」を参照してください。
ドキュメント翻訳機能は、250,000 を超える文を含む辞書を使用したトレーニングに推奨されます。詳細については、「ドキュメント翻訳」を参照してください。
Free (F0) サブスクリプショントレーニングの上限は 200 万文字です。

次のステップ

ディクショナリを使用する方法

次の方法で共有

並列ドキュメントの文のペアリングとアライン

ペアリングとアラインのプロセス

事前にアラインされたドキュメント

推奨される文の最小数

次のステップ

フィードバック

その他のリソース