Document Intelligence 読み取りモデル

[アーティクル]
10/17/2024

重要

Document Intelligence パブリックプレビューリリースは、開発中の機能への早期アクセスを提供します。機能、アプローチ、およびプロセスは、一般提供 (GA) の前に、ユーザーからのフィードバックに基づいて変更される可能性があります。
Document Intelligence クライアントライブラリのパブリックプレビューバージョンは、REST API バージョン 2024-07-31-preview にデフォルトで設定されています。
パブリックプレビューバージョン 2024-07-31-preview は、現在、次の Azure リージョンでのみ使用できます。 AI Studio のカスタム生成 (ドキュメントフィールド抽出) モデルは、米国中北部リージョンでのみ使用できます。
- 米国東部
- 米国西部 2
- "西ヨーロッパ"
- 米国中北部

このコンテンツの適用対象: v4.0 (プレビュー) | 以前のバージョン: v3.1 (GA) v3.0 (GA)

Note

ラベル、道路標識、ポスターなどの外部画像からテキストを抽出するには、パフォーマンスが向上した同期 API を使用して、一般的なドキュメント以外の画像用に最適化された Azure AI Image Analysis v4.0 読み取り機能を使用します。これにより、ユーザーエクスペリエンスシナリオに OCR を簡単に埋め込むことができます。

Document Intelligence の読み取り光学式文字認識 (OCR) モデルは、Azure AI Vision の読み取りよりも高解像度で動作し、PDF ドキュメントやスキャン画像から印刷テキストや手書きテキストを抽出します。また、Microsoft Word、Excel、PowerPoint、HTML ドキュメントからテキストを抽出するためのサポートも含まれています。段落、テキスト行、単語、場所、言語が検出されます。この読み取りモデルは、カスタムモデルに加えて、レイアウト、一般ドキュメント、請求書、領収書、身分証明書 (ID)、医療保険カード、W2 など、他の Document Intelligence 事前構築済みモデルの基になる OCR エンジンです。

光学式文字認識とは

ドキュメントの光学式文字認識 (OCR) は、複数のファイル形式とグローバル言語の大きなテキスト負荷の高いドキュメントに最適化されています。これには、ドキュメント画像の高解像度スキャンによる小さな文字や密集した文字の優れた処理、段落検出、入力可能なフォーム管理などの機能が含まれています。 OCR 機能には、1 文字のボックスや、請求書、領収書、その他の事前構築済みのシナリオでよく見られるキーフィールドの正確な抽出などの高度なシナリオも含まれます。

開発オプション (v4)

Document Intelligence v4.0 (2024-07-31-preview) は、次のツール、アプリケーション、ライブラリをサポートします。

機能	リソース	モデル ID
OCR 読み取りモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

入力の要件 (v4)

サポートされているファイル形式:

モデル	PDF	画像: `JPEG/JPG`、`PNG`、`BMP`、`TIFF`、`HEIF`	Microsoft Office: Word (`DOCX`)、Excel (`XLSX`)、PowerPoint (`PPTX`)、HTML
読み込み	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔ (2024-07-31-preview、2024-02-29-preview)

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 ピクセル　x 50 ピクセルから 10,000 ピクセル　x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1 GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1 GB で、最大 10,000 ページです。 2024-07-31-preview 以降の場合、トレーニングデータの合計サイズは 2 GB で、最大 10,000 ページです。

Read モデルの概要 (v4)

Document Intelligence Studio を使用して、フォームやドキュメントからテキストを抽出してみてください。次の資産が必要になります。

Azure サブスクリプション - 無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Note

現在、Document Intelligence Studio では、Microsoft Word、Excel、PowerPoint、HTML のファイル形式はサポートされていません。

"Document Intelligence Studio で処理されたサンプルドキュメント"

Document Intelligence Studio での読み取り処理のスクリーンショット。

Document Intelligence Studio ホームページで、[読み取り] を選択します。
サンプルドキュメントを分析したり、独自のファイルをアップロードしたりできます。
[分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。

Document Intelligence Studio を試す。

サポートされている言語とロケール (v4)

サポートされている言語の完全なリストについては、言語サポート - ドキュメント解析モデルのページを参照してください。

データの抽出 (v4)

Note

Microsoft Word および HTML ファイルは、v4.0 でサポートされています。 PDF や画像と比較して、以下の機能はサポートされていません。

各ページオブジェクトには、角度、幅と高さ、単位はありません。
検出される各オブジェクトには、多角形領域も境界領域もありません。
ページ範囲 (pages) はパラメーターとしてサポートされていません。
lines オブジェクトはありません。

検索可能な PDF

検索可能な PDF 機能を使用すると、スキャン画像の PDF ファイルなどのアナログ PDF をテキストが埋め込まれた PDF に変換できます。埋め込みテキストにして、検出されたテキストエンティティを画像ファイルの上にオーバーレイすることで、PDF の抽出されたコンテンツ内でディープテキスト検索を実行できるようになります。

重要

現在、検索可能な PDF 機能は読み取り OCR モデル prebuilt-read でのみサポートされています。この機能を使用する場合、他のモデルの種類はこのプレビューバージョンに対してエラーを返すので、modelId を prebuilt-read と指定してください。
検索可能な PDF は 2024-07-31-preview prebuilt-read モデルに含まれており、検索可能な PDF 出力の生成に追加コストはかかりません。

検索可能な PDF を使用する

検索可能な PDF を使用するには、Analyze 操作を使用して POST 要求を作成し、出力形式を pdf と指定します。


     POST /documentModels/prebuilt-read:analyze?output=pdf
     {...}
     202

Analyze 操作の完了をポーリングします。操作が完了したら、GET 要求を発行して、PDF 形式の Analyze 操作結果を取得します。

正常に完了すると、PDF を取得して application/pdf としてダウンロードできます。この操作により、Base64 でエンコードされた JSON ではなく、埋め込みテキスト形式の PDF を直接ダウンロードできます。


     // Monitor the operation until completion.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}
     200
     {...}

     // Upon successful completion, retrieve the PDF as application/pdf.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
     200 OK
     Content-Type: application/pdf

pages パラメーター

ページコレクションは、ドキュメント内のページの一覧です。各ページはドキュメント内で順番に表示され、ページが回転しているかどうかを示す方向角度と、幅と高さ (ピクセル単位の寸法) が含まれます。モデル出力のページ単位は、次のように計算されます。

ファイル形式	計算されるページ単位	[総ページ数]
画像 (JPEG/JPG、PNG、BMP、HEIF)	各画像 = 1 ページ単位	画像の合計
PDF	PDF の各ページ = 1 ページ単位	PDF のページの合計数
TIFF	TIFF の各画像 = 1 ページ単位	TIFF の画像の合計数
Word (DOCX)	最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません	最大 3,000 文字ずつのページの合計数
Excel (XLSX)	各ワークシート = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません	合計ワークシート数
PowerPoint (PPTX)	各スライド = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません	合計スライド数
HTML	最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません	最大 3,000 文字ずつのページの合計数

サンプルコード
出力

    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

GitHub でサンプルを表示する。

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

テキスト抽出に pages を使用する

複数ページの大きい PDF ドキュメントの場合は、pages クエリパラメーターを使用して、テキストを抽出する特定のページ番号またはページ範囲を示します。

段落の抽出

Document Intelligence の読み取り OCR モデルは、analyzeResults の最上位オブジェクトとして、paragraphs コレクション内の識別されたテキストブロックすべてを抽出します。このコレクション内の各エントリはテキストブロックを表し、抽出されたテキスト (content) と境界 polygon 座標を含みます。 span情報は、ドキュメントのテキスト全体を含む最上位contentプロパティ内のテキストフラグメントを指します。

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

テキスト、行、単語の抽出

読み取り OCR モデルでは、印刷と手書きのスタイルのテキストをlinesおよびwordsとして抽出します。このモデルでは、抽出された単語の境界 polygon 座標と confidence を出力します。 styles コレクションには、行の手書きスタイル (関連するテキストを指すスパンと共に検出された場合) が含まれます。この機能は、サポートされている手書き言語に適用されます。

Microsoft Word、Excel、PowerPoint、HTML の場合、Document Intelligence Read モデル v3.1 以降のバージョンでは、すべての埋め込みテキストがそのまま抽出されます。テキストは単語と段落として抽出されます。埋め込み画像はサポートされません。

サンプルコード
出力

    # Analyze lines.
    if page.lines:
        for line_idx, line in enumerate(page.lines):
            words = get_words(page, line)
            print(
                f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
            )

            # Analyze words.
            for word in words:
                print(f"......Word '{word.content}' has a confidence of {word.confidence}")

GitHub でサンプルを表示する。

    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

手書きスタイルの抽出

応答では、各テキスト行が手書きスタイルであるかどうかと、信頼度スコアが分類されます。詳細については、手書き言語サポートに関するページを "参照" してください。次の例は、JSON スニペットの例を示しています。

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

フォントとスタイルのアドオン機能を有効にすると、styles オブジェクトの一部としてフォントとスタイルの結果も取得されます。

次のステップ v4.0

Document Intelligence のクイックスタートを完了します。

REST API を調べる:

Document Intelligence API v4.0

その他のサンプルを GitHub でご覧ください。

読み取りモデル。

このコンテンツの適用対象: v3.1 (GA) | 最新バージョン: v4.0 (プレビュー) | 以前のバージョン: v3.0

このコンテンツの適用対象: v3.0 (GA) | 最新バージョン: v4.0 (プレビュー) v3.1

Note

ドキュメントの OCR とは

開発オプション

ドキュメントインテリジェンス v3.1 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
OCR 読み取りモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

ドキュメントインテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています：

機能	リソース	モデル ID
OCR 読み取りモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

入力の要件

サポートされているファイル形式:

モデル	PDF	画像: `JPEG/JPG`、`PNG`、`BMP`、`TIFF`、`HEIF`	Microsoft Office: Word (`DOCX`)、Excel (`XLSX`)、PowerPoint (`PPTX`)、HTML
読み込み	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview、2024-02-29-preview、2023-10-31-preview)
一般的なドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔ (2024-07-31-preview、2024-02-29-preview)

最適な結果を得るには、ドキュメントごとに 1 つの鮮明な写真または高品質のスキャンを提供してください。
PDF および TIFF の場合、最大 2,000 ページを処理できます (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、無料 (F0) レベルでは 4 MB です。
画像のディメンションは、50 ピクセル　x 50 ピクセルから 10,000 ピクセル　x 10,000 ピクセルの間である必要があります。
PDF がパスワードでロックされている場合は、送信前にロックを解除する必要があります。
抽出するテキストの最小の高さは、1024 x 768 ピクセルのイメージの場合は 12 ピクセルです。このディメンションは、150 DPI (1 インチあたりのドット数) で約 8 ポイントのテキストに相当します。
カスタムモデルトレーニングにおけるトレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500、カスタムニューラルモデルの場合は 50,000 です。
- カスタム抽出モデルトレーニングにおけるトレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1 GB です。
- カスタム分類モデルトレーニングの場合、トレーニングデータの合計サイズは 1 GB で、最大 10,000 ページです。 2024-07-31-preview 以降の場合、トレーニングデータの合計サイズは 2 GB で、最大 10,000 ページです。

Read モデルの概要

Document Intelligence Studio を使用して、フォームやドキュメントからテキストを抽出してみてください。次の資産が必要になります。

Azure サブスクリプション - 無料で作成できます。
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

Note

現在、Document Intelligence Studio では、Microsoft Word、Excel、PowerPoint、HTML のファイル形式はサポートされていません。

"Document Intelligence Studio で処理されたサンプルドキュメント"

Document Intelligence Studio での読み取り処理のスクリーンショット。

Document Intelligence Studio ホームページで、[読み取り] を選択します。
サンプルドキュメントを分析したり、独自のファイルをアップロードしたりできます。
[分析の実行] ボタンを選択し、必要に応じて [分析オプション] を構成します。

Document Intelligence Studio を試す。

サポートされている言語とロケール

サポートされている言語の完全なリストについては、言語サポート - ドキュメント解析モデルのページを参照してください。

データの抽出

Note

Microsoft Word および HTML ファイルは、v3.1 以降のバージョンでサポートされています。 PDF や画像と比較して、以下の機能はサポートされていません。

各ページオブジェクトには、角度、幅と高さ、単位はありません。
検出される各オブジェクトには、多角形領域も境界領域もありません。
ページ範囲 (pages) はパラメーターとしてサポートされていません。
lines オブジェクトはありません。

検索可能な PDF

重要

現在、検索可能な PDF 機能は読み取り OCR モデル prebuilt-read でのみサポートされています。この機能を使用する場合、他のモデルの種類はこのプレビューバージョンに対してエラーを返すので、modelId を prebuilt-read と指定してください。
検索可能な PDF は 2024-07-31-preview prebuilt-read モデルに含まれており、検索可能な PDF 出力の生成に追加コストはかかりません。
- 検索可能な PDF では現在、入力として PDF ファイルのみをサポートしています。イメージファイルなどの他のファイルの種類のサポートは、後で利用できるようになります。

検索可能な PDF を使用する

検索可能な PDF を使用するには、Analyze 操作を使用して POST 要求を作成し、出力形式を pdf と指定します。


    POST /documentModels/prebuilt-read:analyze?output=pdf
    {...}
    202

Analyze 操作の完了をポーリングします。操作が完了したら、GET 要求を発行して、PDF 形式の Analyze 操作結果を取得します。


    // Monitor the operation until completion.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}
    200
    {...}

    // Upon successful completion, retrieve the PDF as application/pdf.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
    200 OK
    Content-Type: application/pdf

ページ

ファイル形式	計算されるページ単位	[総ページ数]
画像 (JPEG/JPG、PNG、BMP、HEIF)	各画像 = 1 ページ単位	画像の合計
PDF	PDF の各ページ = 1 ページ単位	PDF のページの合計数
TIFF	TIFF の各画像 = 1 ページ単位	TIFF の画像の合計数
Word (DOCX)	最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません	最大 3,000 文字ずつのページの合計数
Excel (XLSX)	各ワークシート = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません	合計ワークシート数
PowerPoint (PPTX)	各スライド = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされていません	合計スライド数
HTML	最大 3,000 文字 = 1 ページ単位、埋め込みまたはリンクされた画像はサポートされません	最大 3,000 文字ずつのページの合計数

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

サンプルコード
出力

    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(
            f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
        )

GitHub でサンプルを表示する。

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

テキスト抽出対象のページを選びます

段落

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

テキスト、行、単語


    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

サンプルコード
出力

    # Analyze lines.
    for line_idx, line in enumerate(page.lines):
        words = line.get_words()
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
        )

        # Analyze words.
        for word in words:
            print(
                f"......Word '{word.content}' has a confidence of {word.confidence}"
            )

GitHub でサンプルを表示する。

    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

テキスト行の手書きスタイル

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

フォントとスタイルのアドオン機能を有効にすると、styles オブジェクトの一部としてフォントとスタイルの結果も取得されます。

次のステップ

Document Intelligence のクイックスタートを完了します。

REST API を調べる:

Document Intelligence API v4.0

その他のサンプルを GitHub でご覧ください。

読み取りモデル。

次の方法で共有

Document Intelligence 読み取りモデル

光学式文字認識とは

開発オプション (v4)

入力の要件 (v4)

Read モデルの概要 (v4)

サポートされている言語とロケール (v4)

データの抽出 (v4)

検索可能な PDF

検索可能な PDF を使用する

pages パラメーター

テキスト抽出に pages を使用する

段落の抽出

テキスト、行、単語の抽出

手書きスタイルの抽出

次のステップ v4.0

ドキュメントの OCR とは

開発オプション

入力の要件

Read モデルの概要

サポートされている言語とロケール

データの抽出

検索可能な PDF

検索可能な PDF を使用する

ページ

テキスト抽出対象のページを選びます

段落

テキスト、行、単語

テキスト行の手書きスタイル

次のステップ

フィードバック

その他のリソース