次の方法で共有


Document Intelligence の payStub モデル

Document Intelligence の payStub では、強力な光学式文字認識 (OCR) 機能とディープ ラーニング モデルの組み合わせにより、給与明細書が分析されて、報酬や収益に関するデータが抽出されます。 API により、給与に関する情報が含まれる文書やファイルを分析し、重要な情報を抽出して、構造化された JSON データ表現を返します。

機能 version モデル ID
payStub モデル v4.0: 2024-11-30 (GA) prebuilt-payStub.us

payStub のデータ抽出を試す

給与明細は、従業員に対して雇用主が発行する重要な文書であり、特定の支払い期間における収益、控除、および純支払い額に関する情報が記載されています。 prebuilt-payStub.us モデルを使用してデータを抽出する方法について説明します。 以下のリソースが必要です。

  • Azure サブスクリプション — 無料で作成することができます

  • Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。 リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

    Azure portal のキーとエンドポイントの場所のスクリーンショット。

Document Intelligence Studio

  1. Document Intelligence Studio ホーム ページで、[payStub] を選択します。

  2. サンプルの給与明細を分析したり、ご自身のファイルをアップロードしたりできます。

  3. 分析実行 ボタンを選択し、必要に応じて 分析オプション を構成します:

入力の要件

サポートされているファイル形式:

モデル PDF 画像:
JPEG/JPGPNGBMPTIFFHEIF
Microsoft Office:
Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
読み込み
Layout
一般的なドキュメント
事前構築済み
カスタム抽出
カスタム分類
  • 最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。

  • PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。

  • ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。

  • 画像のディメンションは、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。

  • PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。

  • 抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。 このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。

  • カスタム モデル トレーニングにおけるトレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500、カスタム ニューラル モデルの場合は 50,000 です。

    • カスタム抽出モデル トレーニングにおけるトレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1 GB です。

    • カスタム分類モデル トレーニングの場合、トレーニング データの合計サイズは 1 GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニング データの合計サイズは 2 GB で、最大 10,000 ページです。

サポートされている言語とロケール

サポートされている言語の完全な一覧については、事前構築済みモデルの言語サポートに関するページを "参照" してください。

フィールドの抽出

サポートされているドキュメント抽出フィールドについては、GitHub サンプル リポジトリの payStub モデル スキーマに関するページを "参照してください"。

サポート対象のロケール

prebuilt-payStub.us バージョンでは、en-us ロケールがサポートされています。

次のステップ