並列ドキュメントの文のペアリングとアライン
ドキュメントがアップロードされると、並列ドキュメントに存在する文がペアリングまたはアラインされます。 Custom Translator では、各データ セットの [Aligned Sentences](アライン済みの文) として、ペアリングできる文の数がレポートされます。
ペアリングとアラインのプロセス
Custom Translator では、一度に 1 文ずつ、文の翻訳が学習されます。 ソース テキストから文が読み取られた後、ターゲット テキストからその文の翻訳が読み取られます。 次に、2 つの文に含まれる単語とフレーズが相互にアラインされます。 このプロセスによって、ある文の単語とフレーズから、その文の翻訳に含まれる同義の単語とフレーズへのマップを作成できるようになります。 アラインでは、相互の翻訳である文に対してシステムが確実にトレーニングされるように試行します。
事前にアラインされたドキュメント
並列ドキュメントがあることがわかっている場合は、事前にアラインされたテキスト ファイルを提供して、文のアラインをオーバーライドできます。 両方のドキュメントのすべての文をテキスト ファイルに抽出し、1 行に 1 文を構成し、.align
の拡張子でアップロードすることができます。 .align
の拡張子で、文のアラインをスキップする必要があることを Custom Translator に指示します。
最適な結果を得るために、ファイルの 1 行に 1 文ずつを含めます。 文中には改行文字を入れないでください。不適切なアライン結果になります。
推奨される文の最小数
次の表では、トレーニングを成功させるために各ドキュメントの種類で必要な文の最小数を示します。 この制限は、翻訳モデルのトレーニングを成功させるために、並列文に十分な一意のボキャブラリが確実に含まれるようにするための安全策です。 一般的なガイドラインとして、人間による翻訳品質のドメイン内並列文が多くなると、より高品質のモデルが生成されます。
ドキュメントの種類 | 推奨される文の最小数 | 文の最大数 |
---|---|---|
トレーニング | 10,000 | 上限なし |
チューニング | 500 | 2,500 |
テスト | 500 | 2,500 |
Dictionary | 0 | 250,000 |
注意