カスタム固有表現認識の定義と用語
この記事を使用して、カスタム NER の使用時に遭遇する可能性のあるいくつかの定義と用語について学習してください。
Entity
エンティティは、特定の種類の情報を示すテキスト範囲です。 このテキスト範囲は、1 つ以上の単語で構成されます。 カスタム NER のスコープでは、エンティティは、ユーザーがテキストから抽出する情報を表します。 開発者は、トレーニングのためにモデルに渡す前に、データ内のエンティティに必要なエンティティにタグを付けます。 たとえば、"請求書番号"、"開始日"、"出荷番号"、"出発地"、"配信元の市区町村"、"仕入先名"、"クライアント アドレス" などです。
たとえば、"John borrowed 25,000 USD from Fred. (John が Fred から 25,000 USD 借りました。)" という文があるとします。エンティティは以下になります。
エンティティ名/型 | Entity |
---|---|
Borrower Name (借り手名) | John |
Lender Name (貸し手名) | Fred |
Loan Amount (貸し付け金額) | 25,000 USD |
F1 スコア
F1 スコアは、精度とリコールの関数です。 精度とリコールのバランスを取るときに必要です。
モデル
モデルは、特定のタスク (ここでは、カスタム エンティティの認識) を実行するためにトレーニングされたオブジェクトです。 モデルは、ラベル付けされたデータを提供することによってトレーニングされ、後で認識タスクに使用できます。
- モデルのトレーニングは、ラベル付けされたデータに基づいて何を抽出するかをモデルに教えるプロセスです。
- モデルの評価は、モデルがどの程度適切に実行されるかを把握するために、トレーニングの直後に行うプロセスです。
- デプロイは、モデルをデプロイに割り当てて、予測 API を介して使用できるようにするプロセスです。
有効桁数
モデルの精密さと正確さを測定します。 これは、正しく識別された陽性 (真陽性) と識別されたすべての陽性との比率です。 精度メトリックによって、予測クラスのうち、正しくラベル付けされている数が明らかになります。
Project
プロジェクトは、データに基づいてカスタム ML モデルを構築するための作業領域です。 プロジェクトにアクセスできるのは、自分と、使用されている Azure リソースへのアクセス権を持つユーザーのみです。
カスタム エンティティ抽出プロジェクトを作成するための前提条件として、新しいプロジェクトを作成するときに、データセットを含むストレージ アカウントにリソースを接続する必要があります。 プロジェクトには、コンテナー内にあるすべての .txt
ファイルが自動的に組み込まれます。
プロジェクト内で、以下のアクションを実行できます。
- データにラベル付けする: モデルのトレーニング時にそのモデルが抽出する内容を学習するように、データにラベルを付けるプロセスです。
- モデルを構築してトレーニングする: モデルがラベル付けされたデータから学習を開始する、プロジェクトのコア ステップです。
- モデルの評価の詳細を表示する: モデルのパフォーマンスを確認して、改善の余地があるかどうか、または結果に満足できるかどうかを判断します。
- デプロイ: モデルのパフォーマンスを確認し、環境で使用できると判断したら、それを使用するためにデプロイに割り当てる必要があります。 モデルをデプロイに割り当てると、予測 API を通じて使用できるようになります。
- テスト モデル: モデルをデプロイした後、Language Studio でデプロイをテストして、運用環境でのパフォーマンスを確認します。
呼び戻し
実際の陽性クラスを予測するモデルの能力を測定します。 これは、予測された真陽性と実際にタグ付けされたものとの比率です。 リコール メトリックによって、予測クラスのうち、正しいものの数が明らかになります。