事前構築済みモデルを使用して、Microsoft Syntexの単純なドキュメントから情報を抽出する
シンプルなドキュメント処理モデルは、次のような情報を含む基本的な構造化ドキュメントから情報を抽出するための、柔軟で事前にトレーニングされたソリューションを提供します。
キーと値のペア – ラベルとそれに対応する情報 ("名前: Adele Vance" など) と考えてください。
選択マーク – これらは、ドキュメント内の選択または選択を示すチェック ボックスまたはその他のマークです。
名前付きエンティティ – これらは、ドキュメントのテキストに記載されている人、場所、または組織の名前などの特定の項目です。
バーコード – これらは、ドキュメント内の追跡または識別の目的で使用できるデータの機械で読み取り可能な表現です。
固定スキーマを持つ他の事前構築済みモデルとは異なり、このモデルは、他のユーザーが見逃す可能性のあるキーを特定できるため、カスタム モデルのラベル付けとトレーニングに代わる貴重な代替手段が提供されます。 このモデルでは、バーコードと言語検出もサポートされています。
ドキュメントの種類
単純なドキュメント処理は、次のような構造化情報を含むドキュメントの種類に最適です。
Forms – これらは多くの場合、明確なフィールドとラベルを持ち、キーと値のペアを簡単に抽出できます。
請求書 – 通常、テーブルとキーと値のペアを含む一貫性のあるレイアウトが含まれます。
領収書 – 請求書と同様に、簡単に抽出できる構造化データがあります。
コントラクト – 効果的に解析できる、適切に定義されたセクションと句が含まれています。
銀行取引明細書 – 抽出に最適なテーブルと構造化データを含めます。
これらのドキュメントは、キーと値のペア、選択マーク、テーブル、および名前付きエンティティを抽出するために使用される光学式文字認識 (OCR) 機能とディープ ラーニング プロセスの恩恵を受けます。
注:
現在、このモデルは、.pdf とイメージのファイルの種類と 100 を超える言語で使用できます。 サポートされるファイルの種類は、今後のリリースで追加される予定です。
単純なドキュメント処理モデルを使用するには、次の手順に従います。
- 手順 1: モデルを作成する
- 手順 2: 分析するサンプル ファイルをアップロードする
- 手順 3: モデルの抽出器を選択する
- 手順 4: モデルを適用する
手順 1: モデルを作成する
「Syntex でモデルを作成する」の手順に従って、単純なドキュメント処理モデルを作成します。 次に、次の手順に進み、モデルを完了します。
手順 2: 分析するサンプル ファイルをアップロードする
[ モデル ] ページの [ 分析するファイルの追加 ] セクションで、[ ファイルの追加] を選択します。
[ モデルを分析するファイル ] ページで、[ 追加 ] を選択して、使用するファイルを見つけます。
[ トレーニング ファイル ライブラリからファイルを追加する] ページで、ファイル を選択し、[ 追加] を選択します。
[ モデルを分析するファイル] ページで 、[ 次へ] を選択します。
手順 3: モデルの抽出器を選択する
[エクストラクターの詳細] ページで、ページの右側にドキュメント領域が表示され、左側に [エクストラクター ] パネルが表示されます。 [ 抽出器 ] パネルには、ドキュメントで識別された抽出器の一覧が表示されます。
ドキュメント領域で緑色で強調表示されているエンティティ フィールドは、ファイルを分析したときにモデルによって検出された項目です。 抽出するエンティティを選択すると、強調表示されたフィールドが青に変わります。 後でエンティティを含めないことを決定した場合、強調表示されたフィールドは灰色に変わります。 強調表示により、選択した抽出器の現在の状態を簡単に確認できます。
ヒント
拡大または縮小してエンティティ フィールドを読み取る場合は、マウスのスクロール ホイールまたはドキュメント領域の下部にあるズーム コントロールを使用します。
抽出エンティティを選択する
好みに応じて、ドキュメント領域または抽出パネルから 抽出器 を選択できます。
- ドキュメント領域から抽出器を選択するには、エンティティ フィールドを選択します。
- [抽出 ツール ] パネルから抽出器を選択するには、[ 抽出 ] 列で、エンティティ名の右側にある対応するチェック ボックスをオンにします。
抽出器を選択すると、ドキュメント領域に [抽出器の選択] ボックスが表示されます。 ボックスには、キー名 (抽出器に生成された名前)、検出された値 (ドキュメント内のそのフィールドの値)、列の種類、およびエンティティを抽出器として選択するオプションが表示されます。
キー名は、モデルが SharePoint ライブラリに適用されるときに列名として使用されます。 必要に応じて、キー名をよりわかりやすいものに変更できます。 列の種類は、情報がライブラリでどのように表示されるかを示します。 列の種類を変更して、情報の表示方法を表示できます。 モデルをライブラリに適用する場合は、列の書式設定を使用して、ドキュメント内で表示する方法を指定できます。
引き続き、使用する他の抽出器を選択します。 他のファイルを追加して、このモデル構成を分析することもできます。
抽出子の名前を変更する
抽出器の名前を変更するには、次の 3 つの方法があります。
抽出の詳細ページのドキュメント領域で、エンティティ フィールドを選択します。 [ 抽出器の選択] ボックスの [ キー名 ] フィールドに、抽出器の新しい名前を入力します。
抽出器の詳細ページの [エクストラクター] パネルで、名前を変更する抽出器を選択し、[名前の変更] を選択します。
モデルのホーム ページの [ Extractors ] セクションで、名前を変更する抽出器を選択し、[名前の 変更] を選択します。
処理するページ範囲を設定する
このモデルでは、ファイル全体ではなく、ファイルのページ範囲を処理するように指定できます。 [ 抽出器 ] パネルの [ ページ範囲 ] セクションで、処理するページを選択します。 既定では、[ ページ範囲 ] 設定は空です。 ページ範囲が指定されていない場合、ドキュメント全体が処理されます。 詳細については、「 特定のページから情報を抽出するページ範囲を設定する」を参照してください。
ドキュメントの言語を検出する
このモデルでは、ドキュメントの言語を検出し、列に抽出できます。 [ エクストラクター ] パネルの [ 言語検出 ] セクションで、言語検出をオンに切り替えます。 検出された言語の ISO コードが表示されます。
また、モデルの [ モデル設定] パネルから言語検出をオンまたはオフにすることもできます。
手順 4: モデルを適用する
変更を保存してモデルのホーム ページに戻すには、[ エクストラクター ] パネルで [ 保存して終了] を選択します。
モデルをライブラリに適用する準備ができたら、ドキュメント領域で [ 次へ] を選択します。 [ ライブラリに追加 ] パネルで、モデルを追加するライブラリを選択し、[ 追加] を選択します。