Document Intelligence Studio で構成されたカスタム モデル
このコンテンツの適用対象: v4.0 (GA) | 以前のバージョン: v3.1 (GA) v3.0 (GA) v2.1 (GA)
::: moniker-end
このコンテンツの適用対象: v2.1 | 最新バージョン: v4.0 (GA)
重要
v4.0 2024-11-30 (GA) model compose
の操作では、分析用の暗黙的な分類子ではなく、明示的にトレーニングされた分類子が追加されます。 以前の作成済みモデル バージョンについては、構成済みカスタム モデル v3.1 を "参照してください"。 現在、作成済みモデルを使用している場合は、最新の実装へのアップグレードを検討してください。
作成済みモデルとは
作成済みモデルを使用すると、1 つのモデル ID で呼び出される作成済みモデルに、複数のカスタム モデルをグループ化できます。 たとえば、作成済みモデルには、サプライ、備品、家具の発注書を分析するようにトレーニングされたカスタム モデルを含めることができます。 適切なモデルを手動で選択する代わりに、作成済みモデルを使用すれば、分析と抽出ごとに適切なカスタム モデルを決定できます。
一部のシナリオでは、最初にドキュメントを分類し、モデルからフィールドを抽出する際に、最適なモデルを使用してドキュメントを分析する必要があります。 このようなシナリオには、ユーザーがドキュメントをアップロードしたものの、ドキュメントの種類が明示的に不明な場合が含まれます。 別のシナリオとして、処理のために複数のドキュメントが単一のファイルにまとめてスキャンされ、送信される場合があります。 アプリケーションでは、コンポーネント ドキュメントを識別し、各ドキュメントに最適なモデルを選択する必要があります。
以前のバージョンでは、model compose
操作によって暗黙的な分類が実行され、送信されたドキュメントを最もよく表すカスタム モデルが決定されました。 2024-11-30 (GA) における model compose
操作の実装は、以前のバージョンでの暗黙的な分類を明示的な分類ステップに置き換え、条件付きルーティングを追加します。
新しいモデル作成操作の利点
新しい model compose
操作では、明示的な分類子をトレーニングする必要があり、これにはいくつかの利点があります。
継続的かつ漸進的な改善。 サンプルを追加し、分類を継続的に改善することで、分類子の品質を一貫して向上させることができます。 この微調整により、ドキュメントが抽出に適したモデルに常にルーティングされるようになります。
ルーティングの完全な制御。 信頼度ベースのルーティングを追加することで、ドキュメントの種類と分類応答の信頼度しきい値を指定します。
操作中にドキュメント固有のドキュメント種類を無視。
model compose
操作の以前の実装では、最も高い信頼度スコアが比較的低い場合でも、信頼度スコアに基づいて抽出に最適な分析モデルが選択されました。 信頼度しきい値を指定するか、分類から抽出モデルへの既知の文書タイプのマッピングを明示的に行わないことで、特定のドキュメントの種類を無視できます。同じドキュメント種類の複数のインスタンスを分析。 分類子の
splitMode
オプションと組み合わせて使用すると、model compose
操作では、ファイル内の同じドキュメントの複数のインスタンスを検出し、ファイルを分割して各ドキュメントを個別に処理できます。splitMode
を使用すると、単一の要求でドキュメントの複数のインスタンスを処理できます。アドオン機能のサポート。 クエリ フィールドやバーコードなどのアドオン機能では、分析モデル パラメーターの一部として指定することもできます。
割り当てられたカスタム モデルの最大数が 500 に拡張。
model compose
操作の新しい実装により、単一の作成済みモデルに最大 500 個のトレーニング済みカスタム モデルを割り当てることができます。
モデル作成の使用方法
まず、抽出または無視する必要がある情報を含む、必要なすべてのドキュメントのサンプルを収集します。
文書を、その名前が作成済みモデル定義で使用するドキュメントの種類であるフォルダに整理して、分類子をトレーニングします。
最後に、使用するドキュメントの種類ごとに抽出モデルをトレーニングします。
分類モデルと抽出モデルをトレーニングした後、Document Intelligence Studio、クライアント ライブラリ、または REST API を使用して、分類モデルと抽出モデルを作成済みモデルに合成します。
splitMode
パラメーターを使用して、ファイル分割の動作を制御します。
- なし。 ファイル全体が単一のドキュメントとして扱われます。
- perPage。 ファイル内の各ページは、個別のドキュメントとして扱われます。
- Auto。ファイルは自動的にドキュメントに分割されます。
課金と価格
作成済みモデルは、個々のカスタム モデルと同じように課金されます。 価格は、ダウンストリーム分析モデルによって分析されたページの数に基づきます。 課金は、抽出モデルにルーティングされたページの抽出価格に基づきます。 明示的な分類が追加されると、入力ファイル内のすべてのページの分類に対して料金が発生します。 詳細については、Document Intelligence の価格ページについての記事を参照してください。
モデル作成操作を使用する
まず、作成するすべてのモデル ID の一覧を、単一のモデルに作成します。
Studio、REST API、またはクライアント ライブラリを使用して、モデルを 1 つのモデル ID に合成します。
作成されたモデル ID を使用してドキュメントを分析します。
請求
作成済みモデルは、個々のカスタム モデルと同じように課金されます。 価格は、分析されたページ数に基づいています。 課金は、抽出モデルにルーティングされたページの抽出価格に基づきます。 詳細については、Document Intelligence の価格ページについての記事を参照してください。
- 個々のカスタム モデルまたは作成されたカスタム モデルを使用してドキュメントを分析するための価格に変更はありません。
作成済みモデルの機能
Custom template
モデルとcustom neural
モデルは、複数の API バージョンにわたって、単一の作成済みモデルにまとめて合成できます。応答には、ドキュメントの分析に使用された作成済みモデルを示す
docType
プロパティが含まれます。custom template
モデルの場合、作成済みモデルは、カスタム テンプレートのバリエーションまたはさまざまなフォームの種類を使用して作成できます。 この操作は、受信フォームが複数のテンプレートのいずれかに属している場合に便利です。custom neural
モデルのベスト プラクティスは、1 つのドキュメントの種類のさまざまなバリエーションすべてを 1 つのトレーニング データセットに追加し、カスタム ニューラル モデルでトレーニングすることです。model compose
操作は、さまざまな種類のドキュメントを分析用に送信するシナリオに最適です。
Compose モデルの制限
model compose
操作では、500 個までのモデルを単一のモデル ID に割り当てることができます。 作成したいモデルの数が作成済みモデルの上限を超えている場合は、これらの代替手段のいずれかを使用できます。カスタム モデルを呼び出す前にドキュメントを分類します。 読み取りモデルを使用し、コード、正規表現、検索などのソースを使用して、ドキュメントから抽出されたテキストや特定のフレーズに基づいて分類を構築できます。
さまざまな構造化、半構造化、非構造化ドキュメントから同じフィールドを抽出したい場合は、ディープ ラーニングのカスタム ニューラル モデルの使用を検討してください。 カスタム テンプレート モデルとカスタム ニューラル モデルの違いに関する詳細を確認してください。
作成済みモデルを使用したドキュメントの分析は、1 つのモデルを使用したドキュメントの分析と同じです。
Analyze Document
の結果では、ドキュメントを分析するためにどちらのコンポーネント モデルを選択したかを示すdocType
プロパティが返されます。model compose
操作は現在、ラベルを使用してトレーニングするカスタム モデルでのみ使用できます。
作成済みモデルの互換性
カスタム モデルの種類 | v2.1 および v2.0 でトレーニングされたモデル | カスタム テンプレートモデルとニューラル モデル v3.1 および v3.0 | カスタム テンプレートとニューラル モデル v4.0 2024-11-30 (GA) |
---|---|---|---|
バージョン 2.1 および v2.0 でトレーニングされたモデル | サポートされていません | サポートされていません | サポートされていません |
カスタム テンプレートモデルとニューラル モデル v3.0 および v3.1 | サポートされていません | サポートされています | サポートされています |
カスタム テンプレートとニューラル モデル v4.0 | サポートされていません | サポートされています | サポートされています |
以前のバージョンの API (v2.1 以前) でトレーニングされたモデルを作成するには、同じラベル付きデータセットを使って v3.0 API でモデルをトレーニングします。 この追加により、v2.1 モデルを他のモデルで作成できるようになります。
API の v2.1 を使用して作成されたモデルは引き続きサポートされ、更新は必要ありません。
開発オプション
Document Intelligence v4.0:2024-11-30 (GA) は、次のツール、アプリケーション、ライブラリをサポートします:
機能 | リソース |
---|---|
カスタム モデル | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
"作成済みモデル" | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
ドキュメント インテリジェンス v3.1:2023-07-31 (GA) では、次のツール、アプリケーション、ライブラリがサポートされます:
機能 | リソース |
---|---|
カスタム モデル | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
"作成済みモデル" | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
ドキュメント インテリジェンス v3.0:2022-08-31 (GA) では、次のツール、アプリケーション、およびライブラリがサポートされます:
機能 | リソース |
---|---|
カスタム モデル | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
"作成済みモデル" | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
Document Intelligence v2.1 では、次のリソースがサポートされています。
機能 | リソース |
---|---|
カスタム モデル | • ドキュメント インテリジェンスラベル付けツール • REST API • クライアント ライブラリ SDK • ドキュメント インテリジェンス Docker コンテナー |
"作成済みモデル" | • ドキュメントインテリジェンススタジオ • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
次のステップ
カスタム モデルの作成について学習します。