次の方法で共有


並列ドキュメントの文のペアリングとアライン

ドキュメントがアップロードされると、並列ドキュメントに存在する文がペアリングまたはアラインされます。 Custom Translator では、各データ セットの [Aligned Sentences](アライン済みの文) として、ペアリングできる文の数がレポートされます。

ペアリングとアラインのプロセス

Custom Translator では、一度に 1 文ずつ、文の翻訳が学習されます。 ソース テキストから文が読み取られた後、ターゲット テキストからその文の翻訳が読み取られます。 次に、2 つの文に含まれる単語とフレーズが相互にアラインされます。 このプロセスによって、ある文の単語とフレーズから、その文の翻訳に含まれる同義の単語とフレーズへのマップを作成できるようになります。 アラインでは、相互の翻訳である文に対してシステムが確実にトレーニングされるように試行します。

事前にアラインされたドキュメント

並列ドキュメントがあることがわかっている場合は、事前にアラインされたテキスト ファイルを提供して、文のアラインをオーバーライドできます。 両方のドキュメントのすべての文をテキスト ファイルに抽出し、1 行に 1 文を構成し、.align の拡張子でアップロードすることができます。 .align の拡張子で、文のアラインをスキップする必要があることを Custom Translator に指示します。

最適な結果を得るために、ファイルの 1 行に 1 文ずつを含めます。 文中には改行文字を入れないでください。不適切なアライン結果になります。

推奨される文の最小数

次の表では、トレーニングを成功させるために各ドキュメントの種類で必要な文の最小数を示します。 この制限は、翻訳モデルのトレーニングを成功させるために、並列文に十分な一意のボキャブラリが確実に含まれるようにするための安全策です。 一般的なガイドラインとして、人間による翻訳品質のドメイン内並列文が多くなると、より高品質のモデルが生成されます。

ドキュメントの種類 推奨される文の最小数 文の最大数
トレーニング 10,000 上限なし
チューニング 500 2,500
テスト 500 2,500
Dictionary 0 250,000

注意

  • トレーニングの 10,000 の文の最小数が満たされていない場合、トレーニングは開始されず、失敗します。
  • チューニングとテストは省略可能です。 これらを指定しないと、確認とテストに使用するためのトレーニングからの適切な比率がシステムで削除されます。
  • モデルは、辞書データのみを使用してトレーニングすることができます。 「辞書とは」を参照してください。
  • 辞書に含まれている文が 25 万を超える場合、ドキュメント翻訳機能の方が適している可能性があります。 ドキュメント翻訳に関するページを参照してください。
  • Free (F0) サブスクリプション トレーニングの上限は 200 万文字です。

次のステップ