次の方法で共有


カスタム センチメント分析用のモデルをトレーニングするためにテキスト データにラベルを付ける

モデルをトレーニングする前に、分類するセンチメントでドキュメントにラベルを付ける必要があります。 このデータは次のステップで使用され、ラベル付けされたデータから学習できるようにモデルをトレーニングします。 既にデータにラベルを付けている場合は、プロジェクトに直接インポートできます。 データが、許容されるデータ形式に従っていることを確認します。

カスタム センチメント分析モデルを作成する前に、まずラベル付けされたデータが必要です。 データがまだラベル付けされていない場合は、Language Studio でラベルを付けることができます。 ラベル付けされたデータは、テキストの解釈方法をモデルに示し、トレーニングと評価に使用されます。

前提条件

データにラベルを付けるには、以下が必要です。

詳細については、「プロジェクト開発ライフサイクル」を参照してください。

データのラベル付けガイドライン

データを準備し、プロジェクトを作成した後、データにラベルを付ける必要があります。 データのラベル付けは、必要なセンチメントに関連するドキュメントをモデルから認識できるようにするために重要です。 Language Studio でデータにラベルを付ける (またはラベル付きデータをインポートする) と、これらのラベルは、このプロジェクトに接続したストレージ コンテナーの JSON ファイルに格納されます。

データにラベルを付けるときは、次のことに注意してください。

  • 一般に、データが正確にラベル付けされていれば、ラベル付けされたデータが多いほど良い結果が得られます。

  • ご自分のモデルが最高のパフォーマンスを発揮することを保証できる決まったラベルの数はありません。 モデルのパフォーマンスは、データで生じる可能性があるあいまいさと、ラベル付けされたデータの品質によります。

データにラベルを付ける

次の手順に従って、データにラベルを付けます。

  1. Language Studio でプロジェクトのページに移動します。

  2. 左側のメニューから、[データのラベル付け] を選択します。 ストレージ コンテナー内のすべてのドキュメントのリストを見つけることができます。

    ヒント

    上部のメニューのフィルターを使用して、ラベル付けされていないファイルを表示し、ラベル付けを開始できます。 フィルターを使用して、特定のセンチメントでラベル付けされているドキュメントを表示することもできます。

  3. 上部のメニューの左側から単一のファイル ビューに変更するか、ラベル付けを開始する特定のファイルを選択します。 プロジェクトで使用できるすべての .txt ファイルの一覧を、左側で確認できます。 ページの下部にある[戻る][次へ] のボタンを使用して、ドキュメント間を移動できます。

    注意

    プロジェクトで複数の言語を有効にした場合は、上部のメニューに [言語] ドロップダウンがあり、ドキュメントごとに言語を選択できます。

  4. 右側のペインで、プロジェクトにセンチメントを追加し、データのラベル付けを開始できます。

  5. 右側のペインの [ラベル] ピボットで、プロジェクト内のすべてのセンチメントと、それぞれのラベル付きインスタンスの数を確認できます。

  6. 右側のペインの下部セクションで、表示している現在のファイルをトレーニング用セットまたはテスト用セットに追加できます。 既定では、すべてのドキュメントがトレーニング セットに追加されます。 トレーニング用セットとテスト用セットの詳細と、モデルのトレーニングと評価に使用される方法について説明します。

    ヒント

    自動データ分割の使用を計画している場合は、すべてのドキュメントをトレーニング セットに割り当てる既定のオプションを使用します。

  7. [分布] ピボットの下で、トレーニング用セットとテスト用セット全体の分布を表示できます。 表示には、2 つのオプションがあります。

    • "インスタンスの合計数"。特定のインスタンスのすべてのラベル付きインスタンスの数を表示できます。
    • "少なくとも 1 つのラベルが付いたドキュメント"。このセンチメントのラベル付きインスタンスが少なくとも 1 つ含まれている場合、各ドキュメントがカウントされます。
  8. ラベルを付けているとき、変更は定期的に同期され、まだ保存していない場合は、ページの上部に警告が表示されます。 手動で保存する場合は、ページの下部にある [ラベルの保存] ボタンをクリックします。

次のステップ

データのラベル付けが完了したら、データに基づいて学習するモデルのトレーニングを始めることができます。