Document Intelligence Studio で構成されたカスタムモデル

[アーティクル]
12/16/2024

このコンテンツの適用対象:v4.0 (GA) | 以前のバージョン:v3.1 (GA)v3.0 (GA)v2.1 (GA)

::: moniker-end

このコンテンツの適用対象:v3.1 (GA) | 最新バージョン:v4.0 (GA) | 以前のバージョン:v3.0v2.1

このコンテンツの適用対象:v3.0 (GA) | 最新バージョン:v4.0 (GA)v3.1 | 以前のバージョン:v2.1

このコンテンツの適用対象:v2.1 | 最新バージョン: v4.0 (GA)

重要

v4.0 2024-11-30 (GA) model compose の操作では、分析用の暗黙的な分類子ではなく、明示的にトレーニングされた分類子が追加されます。以前の作成済みモデルバージョンについては、構成済みカスタムモデル v3.1 を "参照してください"。現在、作成済みモデルを使用している場合は、最新の実装へのアップグレードを検討してください。

作成済みモデルとは

作成済みモデルを使用すると、1 つのモデル ID で呼び出される作成済みモデルに、複数のカスタムモデルをグループ化できます。たとえば、作成済みモデルには、サプライ、備品、家具の発注書を分析するようにトレーニングされたカスタムモデルを含めることができます。適切なモデルを手動で選択する代わりに、作成済みモデルを使用すれば、分析と抽出ごとに適切なカスタムモデルを決定できます。

一部のシナリオでは、最初にドキュメントを分類し、モデルからフィールドを抽出する際に、最適なモデルを使用してドキュメントを分析する必要があります。このようなシナリオには、ユーザーがドキュメントをアップロードしたものの、ドキュメントの種類が明示的に不明な場合が含まれます。別のシナリオとして、処理のために複数のドキュメントが単一のファイルにまとめてスキャンされ、送信される場合があります。アプリケーションでは、コンポーネントドキュメントを識別し、各ドキュメントに最適なモデルを選択する必要があります。

以前のバージョンでは、model compose 操作によって暗黙的な分類が実行され、送信されたドキュメントを最もよく表すカスタムモデルが決定されました。 2024-11-30 (GA) における model compose 操作の実装は、以前のバージョンでの暗黙的な分類を明示的な分類ステップに置き換え、条件付きルーティングを追加します。

新しいモデル作成操作の利点

新しい model compose 操作では、明示的な分類子をトレーニングする必要があり、これにはいくつかの利点があります。

継続的かつ漸進的な改善。サンプルを追加し、分類を継続的に改善することで、分類子の品質を一貫して向上させることができます。この微調整により、ドキュメントが抽出に適したモデルに常にルーティングされるようになります。
ルーティングの完全な制御。信頼度ベースのルーティングを追加することで、ドキュメントの種類と分類応答の信頼度しきい値を指定します。
操作中にドキュメント固有のドキュメント種類を無視。 model compose 操作の以前の実装では、最も高い信頼度スコアが比較的低い場合でも、信頼度スコアに基づいて抽出に最適な分析モデルが選択されました。信頼度しきい値を指定するか、分類から抽出モデルへの既知の文書タイプのマッピングを明示的に行わないことで、特定のドキュメントの種類を無視できます。
同じドキュメント種類の複数のインスタンスを分析。分類子の splitMode オプションと組み合わせて使用すると、model compose 操作では、ファイル内の同じドキュメントの複数のインスタンスを検出し、ファイルを分割して各ドキュメントを個別に処理できます。 splitMode を使用すると、単一の要求でドキュメントの複数のインスタンスを処理できます。
アドオン機能のサポート。クエリフィールドやバーコードなどのアドオン機能では、分析モデルパラメーターの一部として指定することもできます。
割り当てられたカスタムモデルの最大数が 500 に拡張。 model compose 操作の新しい実装により、単一の作成済みモデルに最大 500 個のトレーニング済みカスタムモデルを割り当てることができます。

モデル作成の使用方法

まず、抽出または無視する必要がある情報を含む、必要なすべてのドキュメントのサンプルを収集します。
文書を、その名前が作成済みモデル定義で使用するドキュメントの種類であるフォルダに整理して、分類子をトレーニングします。
最後に、使用するドキュメントの種類ごとに抽出モデルをトレーニングします。
分類モデルと抽出モデルをトレーニングした後、Document Intelligence Studio、クライアントライブラリ、または REST API を使用して、分類モデルと抽出モデルを作成済みモデルに合成します。

splitMode パラメーターを使用して、ファイル分割の動作を制御します。

なし。ファイル全体が単一のドキュメントとして扱われます。
perPage。ファイル内の各ページは、個別のドキュメントとして扱われます。
Auto。ファイルは自動的にドキュメントに分割されます。

課金と価格

作成済みモデルは、個々のカスタムモデルと同じように課金されます。価格は、ダウンストリーム分析モデルによって分析されたページの数に基づきます。課金は、抽出モデルにルーティングされたページの抽出価格に基づきます。明示的な分類が追加されると、入力ファイル内のすべてのページの分類に対して料金が発生します。詳細については、Document Intelligence の価格ページについての記事を参照してください。

モデル作成操作を使用する

まず、作成するすべてのモデル ID の一覧を、単一のモデルに作成します。
Studio、REST API、またはクライアントライブラリを使用して、モデルを 1 つのモデル ID に合成します。
作成されたモデル ID を使用してドキュメントを分析します。

請求

作成済みモデルは、個々のカスタムモデルと同じように課金されます。価格は、分析されたページ数に基づいています。課金は、抽出モデルにルーティングされたページの抽出価格に基づきます。詳細については、Document Intelligence の価格ページについての記事を参照してください。

個々のカスタムモデルまたは作成されたカスタムモデルを使用してドキュメントを分析するための価格に変更はありません。

作成済みモデルの機能

Custom template モデルと custom neural モデルは、複数の API バージョンにわたって、単一の作成済みモデルにまとめて合成できます。
応答には、ドキュメントの分析に使用された作成済みモデルを示す docType プロパティが含まれます。
custom template モデルの場合、作成済みモデルは、カスタムテンプレートのバリエーションまたはさまざまなフォームの種類を使用して作成できます。この操作は、受信フォームが複数のテンプレートのいずれかに属している場合に便利です。
custom neural モデルのベストプラクティスは、1 つのドキュメントの種類のさまざまなバリエーションすべてを 1 つのトレーニングデータセットに追加し、カスタムニューラルモデルでトレーニングすることです。 model compose 操作は、さまざまな種類のドキュメントを分析用に送信するシナリオに最適です。

Compose モデルの制限

model compose 操作では、500 個までのモデルを単一のモデル ID に割り当てることができます。作成したいモデルの数が作成済みモデルの上限を超えている場合は、これらの代替手段のいずれかを使用できます。
- カスタムモデルを呼び出す前にドキュメントを分類します。読み取りモデルを使用し、コード、正規表現、検索などのソースを使用して、ドキュメントから抽出されたテキストや特定のフレーズに基づいて分類を構築できます。
- さまざまな構造化、半構造化、非構造化ドキュメントから同じフィールドを抽出したい場合は、ディープラーニングのカスタムニューラルモデルの使用を検討してください。カスタムテンプレートモデルとカスタムニューラルモデルの違いに関する詳細を確認してください。
作成済みモデルを使用したドキュメントの分析は、1 つのモデルを使用したドキュメントの分析と同じです。 Analyze Document の結果では、ドキュメントを分析するためにどちらのコンポーネントモデルを選択したかを示す docType プロパティが返されます。
model compose 操作は現在、ラベルを使用してトレーニングするカスタムモデルでのみ使用できます。

作成済みモデルの互換性

カスタムモデルの種類	v2.1 および v2.0 でトレーニングされたモデル	カスタムテンプレートモデルとニューラルモデル v3.1 および v3.0	カスタムテンプレートとニューラルモデル v4.0 2024-11-30 (GA)
バージョン 2.1 および v2.0 でトレーニングされたモデル	サポートされていません	サポートされていません	サポートされていません
カスタムテンプレートモデルとニューラルモデル v3.0 および v3.1	サポートされていません	サポートされています	サポートされています
カスタムテンプレートとニューラルモデル v4.0	サポートされていません	サポートされています	サポートされています

以前のバージョンの API (v2.1 以前) でトレーニングされたモデルを作成するには、同じラベル付きデータセットを使って v3.0 API でモデルをトレーニングします。この追加により、v2.1 モデルを他のモデルで作成できるようになります。
API の v2.1 を使用して作成されたモデルは引き続きサポートされ、更新は必要ありません。

開発オプション

Document Intelligence v4.0:2024-11-30 (GA) は、次のツール、アプリケーション、ライブラリをサポートします:

機能	リソース
カスタムモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK
"作成済みモデル"	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK

ドキュメントインテリジェンス v3.1:2023-07-31 (GA) では、次のツール、アプリケーション、ライブラリがサポートされます：

機能	リソース
カスタムモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK
"作成済みモデル"	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK

ドキュメントインテリジェンス v3.0:2022-08-31 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされます：

機能	リソース
カスタムモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK
"作成済みモデル"	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK

Document Intelligence v2.1 では、次のリソースがサポートされています。

機能	リソース
カスタムモデル	• ドキュメントインテリジェンスラベル付けツール • REST API • クライアントライブラリ SDK • ドキュメントインテリジェンス Docker コンテナー
"作成済みモデル"	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK

次のステップ

カスタムモデルの作成について学習します。

カスタムモデルを作成するカスタムモデルを作成する

次の方法で共有

Document Intelligence Studio で構成されたカスタムモデル

作成済みモデルとは

新しいモデル作成操作の利点

モデル作成の使用方法

課金と価格

モデル作成操作を使用する

請求

作成済みモデルの機能

Compose モデルの制限

作成済みモデルの互換性

開発オプション

次のステップ

フィードバック

その他のリソース

次の方法で共有

Document Intelligence Studio で構成されたカスタム モデル

作成済みモデルとは

新しいモデル作成操作の利点

モデル作成の使用方法

課金と価格

モデル作成操作を使用する

請求

作成済みモデルの機能

Compose モデルの制限

作成済みモデルの互換性

開発オプション

次のステップ

フィードバック

その他のリソース

Document Intelligence Studio で構成されたカスタムモデル