どのモデルを選択すればよいですか?
Azure AI Document Intelligence は、アプリケーションにインテリジェントなドキュメント処理を追加し、ワークフローを最適化できるさまざまなモデルをサポートしています。 企業が成功するためには、適切なモデルを選択することが不可欠です。 この記事では、使用可能な Document Intelligence モデルを検討し、プロジェクトに最適なソリューションを選択する方法についてのガイダンスを提供します。
次の決定チャートでは、サポートされている各モデルの機能が強調表示されており、アプリケーションのニーズと要件に最も適したモデルを選択するのに役立ちます。
重要
サポートされている言語のテキストと機能ごとのフィールド抽出については、必ず「言語サポート」をご確認ください。
事前トレーニング済みのドキュメント分析モデル
ドキュメントの種類 | 例 | 抽出するデータ | 最適なソリューション |
---|---|---|---|
汎用ドキュメント。 | 契約書や手紙。 | 主に、作成されたまたは印刷されたテキスト行、単語、場所、検出された言語を抽出したいと考えています。 | OCR 読み取りモデル |
構造情報を含むドキュメント。 | レポートまたは調査。 | 書き込まれたまたは印刷されたテキストに加えて、テーブル、選択マーク、段落、タイトル、見出し、小見出しなどの構造情報を抽出する必要があります。 | レイアウト分析モデル |
フィールド (キー) および値として書式設定されたコンテンツを含む構造化ドキュメントまたは半構造化ドキュメント。 | クレジット アプリケーションやアンケートなど、ビジネスや業界でよく使用される標準化された形式であるフォームまたはドキュメント。 | カスタム モデルをトレーニングすることなく、シナリオ固有の事前構築済みモデルでカバーされていないものを含むフィールドと値を抽出する必要があります。 | **オプションのクエリ文字列パラメータがあるレイアウト解析モデル features=keyValuePairs が 有効になってる** |
事前トレーニング済みのシナリオ固有のモデル
ドキュメントの種類 | 抽出するデータ | 最適なソリューション |
---|---|---|
米国統一税 | 独自のカスタム分類を実行せずに、1 つのファイルから W2、1040、1090、1098 のすべての税フォームの主要な情報を抽出する必要がある場合。 | 米国統一税モデル |
米国税 W-2 税 | 給与、賃金、源泉徴収される税金などの重要な情報を抽出する必要があります。 | 米国税 W-2 モデル |
米国税 W-4 税 | 請求調整、個人情報などの重要な情報を抽出する場合。 | 米国税 W-4 モデル |
米国税 1095(A,C) | プレミアム税額控除、前払いクレジット支払いの詳細を抽出する場合。 | 米国税 1095 モデル |
米国税 1098 | 元金、ポイント、税金などの住宅ローン利息の詳細を抽出する必要があります。 | 米国税 1098 モデル |
米国税 1098-E | 貸し手や利息などの学生ローンの利息の詳細を抽出する必要があります。 | 米国税 1098-E モデル |
米国税 1098T | 奨学金の精算、学生のステータス、貸し手の情報など、資格のある学費の詳細を抽出する必要があります。 | 米国税 1098-T モデル |
米国税 1099 (バリエーション) | 1099 申告書と、そのバリエーション (A、B、C、CAP、DIV、G、H、INT、K、LS、LTC、MISC、NEC、OID、PATR、Q、QA、R、S、SA、SB) から情報を抽出する必要がある場合。 |
米国税 1099 モデル |
米国税 1040 (バリエーション) | 1040 申告書と、そのバリエーション (Schedule 1、Schedule 2、Schedule 3、Schedule 8812、Schedule A、Schedule B、Schedule C、Schedule D、Schedule E、Schedule EIC 、Schedule F、Schedule H、Schedule J、Schedule R、Schedule SE 、Schedule Senior) から情報を抽出する必要がある場合。 |
米国税 1040 モデル |
口座取引明細書 | 米国の口座取引明細書から主要な情報を抽出する必要がある場合 | 口座取引明細書 |
銀行小切手 | 小切手のドキュメントから主要な情報を抽出する必要がある場合。 | 銀行小切手 |
契約 (当事者間の法的契約)。 | コントラクト契約の詳細 (当事者、日付、サイクル間隔など) を抽出する場合。 | コントラクト モデル |
医療保険カードまたは医療保険 ID。 | 保険会社、会員 ID、処方箋の適用範囲、グループ番号などの重要な情報を抽出する必要があります。 | 医療保険カード モデル |
クレジット/デビット カード | カード番号や銀行名など、銀行カードの重要な情報を抽出する必要があります。 | クレジット/デビット カード モデル |
結婚証明書 | 結婚証明書から重要な情報を抽出する場合。 | 結婚証明書モデル |
請求書または課金明細書 | 顧客名、請求先住所、支払期日などの重要な情報を抽出する必要があります。 | 請求書モデル |
領収書、バウチャー、または単一ページのホテル領収書。 | 業者名、取引日、取引合計などの重要な情報を抽出する必要があります。 | レシート モデル |
米国の運転免許証や国際パスポートなどの ID ドキュメント (ID) | 名、姓、生年月日、住所、署名などの重要な情報を抽出す必要がある場合。 | 身分証明書 (ID) モデル |
給与明細 | 給与明細ドキュメントから主要な情報を抽出する必要がある場合。 | 給与明細モデル |
米国住宅ローン 1003 | 統一住宅ローン申請書から重要な情報を抽出する必要がある場合。 | 1003 申請書モデル |
米国住宅ローン 1004 | 統一住宅評価報告書 (URAR) から主要な情報を抽出する必要がある場合。 | 1004 申請書モデル |
米国住宅ローン 1005 | 在籍証明書フォームから主要な情報を抽出する必要がある場合 | 1005 申請書モデル |
米国住宅ローン 1008 | 統一引受転送概要書から、重要な情報を抽出する必要がある場合。 | 1008 申請書モデル |
米国住宅ローン決算開示 | 住宅ローン決算開示申請書から重要な情報を抽出する必要がある場合。 | 住宅ローン決算開示申請書モデル |
構造化要素、半構造化要素、非構造化要素を含む混合型ドキュメント | 事前構築済みまたは一般的なドキュメント モデルによって抽出されないキーと値のペア、選択マーク、テーブル、署名フィールド、選択領域を抽出する必要があります。 | カスタム モデル |
ヒント
- 使用する事前トレーニング済みモデルがわからない場合は、オプションのクエリ文字列パラメータをもつ レイアウト モデル を有効にして
features=keyValuePairs
試してください。 - レイアウト モデルには、ページ、テーブル、スタイル、テキスト メッセージ、行、ワード、場所、言語を検出する読み取り OCR エンジンが搭載されています。
カスタム抽出モデル
トレーニング セット | ドキュメントの例 | 最適なソリューション |
---|---|---|
静的レイアウトを持つ、構造化された一貫性のあるドキュメント。 | アンケートやアプリケーションなどの構造化されたフォーム。 | カスタム テンプレート モデル |
構造化データと半構造化。 | ● 構造化→調査 ● 半構造化→請求書 |
カスタム ニューラル モデル |
類似した種類のドキュメントでトレーニングされた複数のモデルのコレクション。 | ● サプライ発注書 ● 機器発注書 ● 家具発注書 すべて 1 つのモデルに構成されます。 |
作成済みカスタム モデル |
カスタム分類モデル
トレーニング セット | ドキュメントの例 | 最適なソリューション |
---|---|---|
少なくとも異なる 2 種類のドキュメント。 | フォーム、レター、またはドキュメント | カスタム分類モデル |