次の方法で共有


Document Intelligence の米国の税務書類モデル

このコンテンツの適用対象: checkmark v4.0 (GA) | 以前のバージョン: 青のチェックマーク v3.1 (GA) :::moniker-end

このコンテンツの適用対象: checkmark v3.1 (GA) | 最新バージョン: 紫のチェックマーク v4.0 (GA)

Document Intelligence 税モデルでは、強力な光学式文字認識 (OCR) 機能を使用して、税ドキュメントの選択したグループから主要なフィールドと品目を分析および抽出します。 税ドキュメントには、1099、1098、W2、1040、1095A、1095C、W-4、1099-SSA などのさまざまな形式を使用できます。 入力形式には、携帯電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF などを含めることができます。 API により、ドキュメントのテキストを分析し、主要な情報を抽出して、構造化された JSON データ表現を返します。 このモデルでは現在、特定の英語の税務書類形式がサポートされています。

サポートされている納税申告書の種類:

  • 米国統一税
  • W-2
  • 1098
  • 1098-E
  • 1098-T
  • 1099 およびバリエーション (1099-SSA を追加)
  • 1040 およびバリエーション
  • 1095A、1095C
  • W-4

税務書類の自動処理

税務書類の自動処理は、税務書類からキー フィールドを抽出するプロセスです。 これまで、税務書類は手動で処理されていました。 このモデルを使用すると、税処理のシナリオを簡単に自動化できます。

米国統一税

Unified US Tax 事前構築済みモデルは、提出されたドキュメント内の W2109810401099 税フォームからデータを自動的に検出および抽出します。 これらは、多くの税金に関連するドキュメントや税金に関連しないドキュメントで構成できます。 モデルでは、サポートされている申告書のみが処理されます。

統一税処理図のスクリーンショット。

開発オプション

Document Intelligence v4.0: 2024-11-30 (GA) は、次のツール、アプリケーション、ライブラリをサポートします:

機能 リソース モデル ID
米国税フォーム モデル Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
• prebuilt-tax.us
• prebuilt-tax.us.W-2
• prebuilt-tax.us.W-4
• prebuilt-tax.us.1095A
• prebuilt-tax.us.1095C
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T
• prebuilt-tax.us.1099A
• prebuilt-tax.us.1099B
• prebuilt-tax.us.1099C
• prebuilt-tax.us.1099CAP
• prebuilt-tax.us.1099Combo
• prebuilt-tax.us.1099DIV
• prebuilt-tax.us.1099G
• prebuilt-tax.us.1099H
• prebuilt-tax.us.1099INT
• prebuilt-tax.us.1099K
• prebuilt-tax.us.1099LS
• prebuilt-tax.us.1099LTC
• prebuilt-tax.us.1099MISC
• prebuilt-tax.us.1099NEC
• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR
• prebuilt-tax.us.1099Q
• prebuilt-tax.us.1099QA
• prebuilt-tax.us.1099R
• prebuilt-tax.us.1099S
• prebuilt-tax.us.1099SA
• prebuilt-tax.us.1099SB
• prebuilt-tax.us.1099SSA
• prebuilt-tax.us.1040
• prebuilt-tax.us.1040Schedule1
• prebuilt-tax.us.1040Schedule2
• prebuilt-tax.us.1040Schedule3
• prebuilt-tax.us.1040Schedule8812
• prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
• prebuilt-tax.us.1040ScheduleD
• prebuilt-tax.us.1040ScheduleE
• prebuilt-tax.us.1040ScheduleEIC
• prebuilt-tax.us.1040ScheduleF
• prebuilt-tax.us.1040ScheduleH
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleR
• prebuilt-tax.us.1040ScheduleSE
• prebuilt-tax.us.1040Senior

Document Intelligence v3.1 では、次のツール、アプリケーション、ライブラリがサポートされています。

機能 リソース モデル ID
米国税フォーム モデル Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Document Intelligence v3.0 では、次のツール、アプリケーション、ライブラリがサポートされています。

機能 リソース モデル ID
米国税フォーム モデル Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

入力の要件

  • サポートされているファイル形式:

    モデル PDF 画像:
    JPEG/JPGPNGBMPTIFFHEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
    読み込み
    Layout
    一般的なドキュメント
    事前構築済み
    カスタム抽出
    カスタム分類
  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。

  • 画像のディメンションは、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

    • カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1 GB です。

    • カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは 1 GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニング データの合計サイズは 2 GB で、最大 10,000 ページです。

税務書類 のデータ抽出を試す

顧客情報、ベンダーの詳細、品目などのデータが請求書からどのように抽出されるかをご覧ください。 以下のリソースが必要です。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Document Intelligence Studio

  1. Document Intelligence Studio のホーム ページで、サポートされている税務書類モデルを選択します

  2. サンプルの税務書類を分析したり、独自のファイルをアップロードしたりできます。

  3. [分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。

    Document Intelligence Studio の [分析の実行] と [分析オプション] ボタンのスクリーンショット。

サポートされている言語とロケール

以下の参照、サポートされている言語の完全なリストについては、 語サポート—の事前構築済みモデル ページをご覧ください。

フィールドの抽出

サポートされているドキュメント抽出フィールドについては、GitHub サンプル リポジトリ内の税ドキュメント モデル スキーマ ページを参照してください。

抽出された請求書のキーと値のペアと明細項目は、JSON 出力の documentResults セクションにあります。

次のステップ