トレーニング ドキュメントの作成と管理
カスタム翻訳ツールを使用すると、ビジネス、業界、ドメイン固有の用語やスタイルを反映した翻訳モデルを構築することができます。 カスタム モデルのトレーニングとデプロイは簡単で、プログラミング スキルを必要としません。 カスタム翻訳ツールでは、並列ファイル、翻訳メモリ ファイル、または zip ファイルをアップロードすることができます。
並列ドキュメントは、一方 (ターゲット) がもう一方 (ソース) の翻訳であるドキュメントのペアです。 ペアの一方のドキュメントにはソース言語の文が含まれ、もう一方のドキュメントにはターゲット言語に翻訳されたこれらの文が含まれています。
ドキュメントをアップロードする前に、ドキュメント形式と名前付け規則に関するガイダンスに基づいて、使用するファイル形式がカスタム翻訳ツールでサポートされていることを確認します。
ドキュメント セットを作成する方法
ドメイン内の品質データの検索は、多くの場合、ユーザーの分類によって異なる困難なタスクです。 使用可能なデータを評価する場合に、次の点を検討できます。
会社に、使用可能な過去の翻訳データがありますか? 企業は多くの場合、長年にわたって人間の翻訳で蓄積された豊富な翻訳データを持っています。
膨大な量のモノリンガル データがありますか? モノリンガル データは、1 つの言語だけからなるデータです。 その場合、このデータの翻訳を入手できますか?
オンライン ポータルをクロールしてソース文を収集し、ターゲット文を合成できますか?
ドキュメントの種類ごとのトレーニング資料
ソース | 実行内容 | 従うべきルール |
---|---|---|
バイリンガル トレーニング ドキュメント | システムに用語とスタイルを教えます。 | 寛容に。 ドメイン内の人間による翻訳は、機械翻訳より優れています。 BLEU スコアの向上を試みながら、ドキュメントを追加または削除します。 |
ドキュメントのチューニング | ニューラル機械翻訳パラメーターをトレーニングします。 | 厳密に。 今後翻訳する予定の文章を適切に代表するように編成します。 |
テスト ドキュメント | BLEU スコアを計算します。 |
厳密に。 今後翻訳する予定の文章を適切に代表するようにテスト ドキュメントを編成します。 |
句辞書 | 常に特定の訳語の使用を強制します。 | 限定的に。 句辞書では大文字と小文字が区別され、リストされている単語やフレーズが指定された方法で翻訳されます。 多くの場合、句辞書を使用せずに、システムに学習させることをお勧めします。 |
文辞書 | 常に特定の訳語の使用を強制します。 | 厳密に。 文辞書は、大文字と小文字が区別されず、ドメイン内でよく見られる短い文章に適しています。 文辞書との一致が成立するには、送信された文全体がソース辞書の項目と一致する必要があります。 文の一部が一致するだけでは、項目が一致したことにはなりません。 |
ドキュメントのアップロード方法
ドキュメントの種類は、プロジェクトの作成時に選択された言語ペアに関連付けられます。
カスタム翻訳ツール ポータルにサインインします。 既定のワークスペースが読み込まれ、これまでに作成されたプロジェクトのリストが表示されます。
目的のプロジェクト名を選択します。 既定で、[ドキュメントの管理] ブレードが選択されており、これまでにアップロードされたドキュメントのリストが表示されます。
[Add document set](ドキュメント セットの追加) を選択し、ドキュメントの種類を選択します。
- トレーニング セット
- テスト セット
- チューニング セット
- 辞書セット:
- 句辞書
- 文辞書
[次へ] を選択します。
注意
[辞書セット] を選択すると、[Choose type of dictionary](辞書の種類の選択) ダイアログが起動します。 1 つを選択して、[次へ] を選択します。
ラジオ ボタンからドキュメント形式を選択します。
- [並列のドキュメント] で、「
Document set name
」と入力し、[ファイルの参照] を選択して、ソース ドキュメントとターゲット ドキュメントを選択します。 - [翻訳メモリ (TM)] ファイルまたは [Upload multiple sets with ZIP](ZIP を使用して複数のセットをアップロード) で、[ファイルの参照] を選択して、ファイルを選択します。
- [並列のドキュメント] で、「
[アップロード] を選択します。
この時点で、カスタム翻訳ツールは、ドキュメントを処理しながら、アップロード通知に示されている文の抽出を試みています。 処理が完了すると、アップロード成功通知が表示されます。
アップロード履歴の表示
[ワークスペース] ページでは、ドキュメントの種類、言語ペア、アップロードの状態など、すべてのドキュメントのアップロードに関する詳細情報の履歴を表示できます。
[upload history] (アップロード履歴) タブには、カスタム翻訳ツール ポータル ワークスペース ページからの履歴が表示されます。
このページには、過去のすべてのアップロードの状態が表示されます。 最近のアップロードから古いアップロードの順に表示されます。 各アップロードの状態には、ドキュメント名、作成日、アップロードの状態、アップロード日、アップロードされたファイル数、アップロードされたファイルの種類、言語ペアが表示されます。 フィルターを使用すると、名前、状態、言語、日付範囲でドキュメントをすばやく見つけることができます。
アップロード履歴の詳細ページには、アップロードされたファイルの状態の一部としてアップロードされたファイル、ファイルの言語、エラー メッセージ (アップロードにエラーがある場合) が表示されます。
次のステップ
- モデルをトレーニングする方法について説明します。
- モデルの品質をテストして評価する方法を学ぶ。
- モデルの公開方法を学ぶ。
- カスタム モデルを使用して翻訳する方法を学ぶ。