Document Intelligence の米国の税務書類モデル
このコンテンツの適用対象: v4.0 (GA) | 以前のバージョン: v3.1 (GA) :::moniker-end
このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (GA)
Document Intelligence 税モデルでは、強力な光学式文字認識 (OCR) 機能を使用して、税ドキュメントの選択したグループから主要なフィールドと品目を分析および抽出します。 税ドキュメントには、1099、1098、W2、1040、1095A、1095C、W-4、1099-SSA などのさまざまな形式を使用できます。 入力形式には、携帯電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF などを含めることができます。 API により、ドキュメントのテキストを分析し、主要な情報を抽出して、構造化された JSON データ表現を返します。 このモデルでは現在、特定の英語の税務書類形式がサポートされています。
サポートされている納税申告書の種類:
- 米国統一税
- W-2
- 1098
- 1098-E
- 1098-T
- 1099 およびバリエーション (1099-SSA を追加)
- 1040 およびバリエーション
- 1095A、1095C
- W-4
税務書類の自動処理
税務書類の自動処理は、税務書類からキー フィールドを抽出するプロセスです。 これまで、税務書類は手動で処理されていました。 このモデルを使用すると、税処理のシナリオを簡単に自動化できます。
米国統一税
Unified US Tax
事前構築済みモデルは、提出されたドキュメント内の W2
、1098
、1040
、1099
税フォームからデータを自動的に検出および抽出します。 これらは、多くの税金に関連するドキュメントや税金に関連しないドキュメントで構成できます。 モデルでは、サポートされている申告書のみが処理されます。
開発オプション
Document Intelligence v4.0: 2024-11-30 (GA) は、次のツール、アプリケーション、ライブラリをサポートします:
機能 | リソース | モデル ID |
---|---|---|
米国税フォーム モデル | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us • prebuilt-tax.us.W-2 • prebuilt-tax.us.W-4 • prebuilt-tax.us.1095A • prebuilt-tax.us.1095C • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • prebuilt-tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • prebuilt-tax.us.1099Combo • prebuilt-tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT • prebuilt-tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC • prebuilt-tax.us.1099OID • prebuilt-tax.us.1099PATR • prebuilt-tax.us.1099Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S • prebuilt-tax.us.1099SA • prebuilt-tax.us.1099SB • prebuilt-tax.us.1099SSA • prebuilt-tax.us.1040 • prebuilt-tax.us.1040Schedule1 • prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3 • prebuilt-tax.us.1040Schedule8812 • prebuilt-tax.us.1040ScheduleA • prebuilt-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior |
Document Intelligence v3.1 では、次のツール、アプリケーション、ライブラリがサポートされています。
機能 | リソース | モデル ID |
---|---|---|
米国税フォーム モデル | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Document Intelligence v3.0 では、次のツール、アプリケーション、ライブラリがサポートされています。
機能 | リソース | モデル ID |
---|---|---|
米国税フォーム モデル | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
入力の要件
サポートされているファイル形式:
モデル PDF 画像: JPEG/JPG
、PNG
、BMP
、TIFF
、HEIF
Microsoft Office:
Word (DOCX
)、Excel (XLSX
)、PowerPoint (PPTX
)、HTML読み込み ✔ ✔ ✔ Layout ✔ ✔ ✔ 一般的なドキュメント ✔ ✔ 事前構築済み ✔ ✔ カスタム抽出 ✔ ✔ カスタム分類 ✔ ✔ ✔ 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは
4
MB です。画像のディメンションは、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約
8
ポイントのテキストに相当します。カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。
カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は
1
GB です。カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは
1
GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニング データの合計サイズは2
GB で、最大 10,000 ページです。
税務書類 のデータ抽出を試す
顧客情報、ベンダーの詳細、品目などのデータが請求書からどのように抽出されるかをご覧ください。 以下のリソースが必要です。
Azure サブスクリプション—無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (
F0
) を利用して、サービスを試用できます。 リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。
Document Intelligence Studio
Document Intelligence Studio のホーム ページで、サポートされている税務書類モデルを選択します
サンプルの税務書類を分析したり、独自のファイルをアップロードしたりできます。
[分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。
サポートされている言語とロケール
以下の参照、サポートされている言語の完全なリストについては、 語サポート—の事前構築済みモデル ページをご覧ください。
フィールドの抽出
サポートされているドキュメント抽出フィールドについては、GitHub サンプル リポジトリ内の税ドキュメント モデル スキーマ ページを参照してください。
抽出された請求書のキーと値のペアと明細項目は、JSON 出力の documentResults
セクションにあります。
次のステップ
Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。