次の方法で共有


Language Studio を使用してデータにラベルを付ける

データのラベル付けは、開発ライフサイクルにおける重要なステップです。 この手順では、スキーマで定義した新しいエンティティでドキュメントにラベルを付け、学習済みコンポーネントにデータを設定します。 このデータはモデルをトレーニングする次のステップで使用され、モデルがラベル付けされたデータから学習し、抽出するエンティティを識別できるようにします。 データを既にラベル付けしている場合は、プロジェクトに直接インポートできますが、データが、許容されるデータ形式に従っていることを確認する必要があります。 ラベル付けされたデータをプロジェクトにインポートする方法の詳細については、「プロジェクトの作成」を参照してください。 データがまだラベル付けされていない場合は、Language Studio でラベルを付けることができます。

前提条件

データにラベルを付けるには、以下が必要です。

詳細については、「プロジェクト開発ライフサイクル」を参照してください。

データのラベル付けガイドライン

データを準備し、スキーマを設計し、プロジェクトを作成した後、データにラベルを付ける必要があります。 データのラベル付けは、抽出する必要のあるエンティティ型に関連する単語をモデルから認識できるようにするために重要です。 Language Studio でデータにラベルを付ける (またはラベル付きデータをインポートする) と、これらのラベルは、このプロジェクトに接続したストレージ コンテナーの JSON ドキュメントに格納されます。

データにラベルを付けるときは、次のことに注意してください。

  • 事前トレーニング済みの事前構築済みエンティティであるため、Text Analytics for Health エンティティのラベルを追加することはできません。 ラベルを追加できるのは、スキーマの定義中に定義した新しいエンティティのカテゴリのみです。

事前構築済みエンティティの呼び戻しを改善する場合は、スキーマの定義中にリスト コンポーネントを追加して拡張できます。

  • 一般に、データが正確にラベル付けされていれば、ラベル付けされたデータが多いほど良い結果が得られます。

  • ラベル付けされたデータの正確性、一貫性、完全性が、モデルのパフォーマンスを決定する重要な要因です。

    • 正確なラベル付け: 各エンティティを適切な型に常にラベル付けします。 ラベルには、抽出するデータのみを含め、不要なデータを入れないでください。
    • 一貫したラベル付け: すべてのドキュメントで、同じエンティティに同じラベルが付いているようにします。
    • 完全なラベル付け: すべてのドキュメントに含まれるエンティティのすべてのインスタンスにラベルを付けます。

    注意

    ご自分のモデルが最高のパフォーマンスを発揮することを保証できる決まったラベルの数はありません。 モデルのパフォーマンスは、スキーマで生じる可能性があるあいまいさと、ラベル付けされたデータの品質に依存します。 それでも、エンティティ型ごとに約 50 個のラベル付きインスタンスを用意することをお勧めします。

データにラベルを付ける

次の手順に従って、データにラベルを付けます。

  1. Language Studio でプロジェクトのページに移動します。

  2. 左側のメニューから、[データのラベル付け] を選択します。 ストレージ コンテナー内のすべてのドキュメントのリストを見つけることができます。

    ヒント

    上部のメニューのフィルターを使用して、ラベル付けされていないドキュメントを表示し、ラベル付けを開始できます。 フィルターを使用して、特定のエンティティ型でラベル付けされているドキュメントを表示することもできます。

  3. 上部のメニューの左側から単一のドキュメント ビューに変更するか、ラベル付けを開始する特定のドキュメントを選択します。 左側で、プロジェクトで使用できるすべての .txt ドキュメントのリストを確認できます。 ページの下部にある[戻る][次へ] のボタンを使用して、ドキュメント間を移動できます。

    注意

    プロジェクトで複数の言語を有効にした場合は、上部のメニューに [言語] ドロップダウンがあり、ドキュメントごとに言語を選択できます。 ヘブライ語は多言語プロジェクトではサポートされていません。

  4. 右側のウィンドウで、[Add entity type] (エンティティ型の追加) ボタンを使用して、スキーマ定義中に見逃したエンティティをプロジェクトに追加できます。

  5. ドキュメントにラベルを付けるには、2 つのオプションがあります。

    オプション 説明
    ブラシを使ってラベルを付ける 右側のペインでエンティティ型の横にあるブラシ アイコンを選択し、ドキュメント内で、このエンティティ型で注釈を付けるテキストを強調表示します。
    メニューを使ってラベルを付ける エンティティとしてラベルを付ける単語を強調表示すると、メニューが表示されます。 このエンティティに割り当てるエンティティ型を選択します。

    次のスクリーンショットは、ブラシを使ったラベル付けを示したものです。

    カスタム NER で提供されるラベル付けオプションを示すスクリーンショット。

  6. 右側のペインの [ラベル] ピボットで、プロジェクト内のすべてのエンティティ型と、それぞれのラベル付きインスタンスの数を確認できます。 事前構築済みのエンティティは参照用に表示されますが、事前トレーニングされているため、これらの事前構築済みエンティティにラベルを付けることはできません。

  7. 右側のペインの下部セクションで、表示している現在のドキュメントをトレーニング用セットまたはテスト用セットに追加できます。 既定では、すべてのドキュメントがトレーニング セットに追加されます。 トレーニング用セットとテスト用セットがモデルのトレーニングと評価に使用される方法について参照してください。

    ヒント

    自動データ分割の使用を計画している場合は、すべてのドキュメントをトレーニング用セットに割り当てる既定のオプションを使用します。

  8. [分布] ピボットの下で、トレーニング用セットとテスト用セット全体の分布を表示できます。 表示には、2 つのオプションがあります。

    • "インスタンスの合計数"。特定のエンティティの種類のすべてのラベル付きインスタンスの数を表示できます。
    • "少なくとも 1 つのラベルが付いたドキュメント"。このエンティティのラベル付きインスタンスが少なくとも 1 つ含まれている場合、各ドキュメントがカウントされます。
  9. ラベルを付けているとき、変更は定期的に同期され、まだ保存していない場合は、ページの上部に警告が表示されます。 手動で保存する場合は、ページの下部にある [ラベルの保存] ボタンを選択します。

ラベルを削除する

ラベルを削除するには、次のようにします。

  1. ラベルを削除するエンティティを選択します。
  2. 表示されるメニューをスクロールして、[ラベルの削除] を選択します。

エンティティの削除

Text Analytics for Health の事前トレーニング済みエンティティは、事前構築済みのコンポーネントが含まれているため、削除できません。 新しく定義されたエンティティ カテゴリの削除のみが許可されます。 エンティティを削除するには、削除するエンティティの横にある削除アイコンを選択します。 エンティティを削除すると、そのラベル付きインスタンスはすべてデータセットから削除されます。

次の手順

データのラベル付けが完了したら、データに基づいて学習するモデルのトレーニングを始めることができます。