AI Studio でカスタム生成モデルを構築してトレーニングする
この記事では、Azure AI Studio を使用してカスタム生成モデルを構築し、トレーニングする方法について説明します。 Document Intelligence カスタム モデルの使用を開始するのに必要なトレーニング ドキュメントはわずか 5 つです。 5 つ以上のドキュメントがありますか。 あるならば、カスタム生成モデルのトレーニングとテストを開始しましょう。
前提条件
アクティブな Azure サブスクリプションが必要です。 Azure サブスクリプションがない場合は、無料で作成することができます。
Azure サブスクリプションを入手したら、Azure portal で Document Intelligence インスタンスを作成します。 Free 価格レベル (
F0
) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。
- アプリケーションを Document Intelligence サービスに接続するには、リソースのキーとエンドポイントが必要です。 このクイックスタートで後に示すコードに、自分のキーとエンドポイントを貼り付けます。 これらの値は Azure portal の [キーとエンドポイント] ページで確認できます。
ストレージ コンテナーの承認
ドキュメント リソースへのアクセスを承認するには、次のいずれかのオプションを選択できます。
✔️マネージド ID。 マネージド ID は、Microsoft Entra ID と、Azure 管理対象リソースの固有アクセス許可を作成するサービス プリンシパルです。 マネージド ID を使用すると、コードに資格情報を埋め込む必要なく、Document Intelligence アプリケーションを実行できます。 マネージド ID は、ストレージ データへのアクセスを許可するためのより安全な方法で、ソース URL と結果 URL に Shared Access Signature トークン (SAS) を含める必要がなくなります。
詳細については、「Document Intelligence のマネージド ID」を参照してください。
重要
- マネージド ID を使用する場合、HTTP 要求に SAS トークン URL を含めないでください。要求は失敗します。 マネージド ID を使用すると、Shared Access Signature トークン (SAS) を含める必要がなくなります。 ✔️ Shared Access Signature (SAS)。 共有アクセス署名は、Document Intelligence サービスに対して、指定した期間の制限付きアクセスを許可する URL です。 この方法を使うには、ソース コンテナーと結果のコンテナーのために Shared Access Signature (SAS) トークンを作成する必要があります。 ソース コンテナーと結果のコンテナーには Shared Access Signature (SAS) トークンを含める必要があり、クエリ文字列として追加します。 トークンは、コンテナーまたは特定の BLOB に割り当てることができます。
- ソースコンテナーまたは BLOB には、読み取り、書き込み、一覧表示、削除のアクセス権が指定されている必要があります。
- 結果のコンテナーまたは BLOB には、書き込み、一覧表示、削除のアクセス権が指定されている必要があります。
詳細については、「SAS トークンの作成」をご覧ください。
トレーニング データ
以下のヒントを使って、トレーニングのためにデータ セットをさらに最適化してください。
画像ベースのドキュメントではなく、テキストベースの PDF ドキュメントを使用します。 スキャンした PDF は画像として扱われます。
入力フィールドを含むフォームの場合は、すべてのフィールドが入力された例を使用します。
各フィールドに異なる値が含まれたフォームを使用します。
フォームの画像の品質が低い場合は、より大きなデータ セット (たとえば 10 から 15 の画像) を使用します。
Azure BLOB ストレージ コンテナーを作成したら、トレーニング データをソース コンテナーにアップロードします。 これで、カスタム生成モデルをトレーニングする準備ができました。
Azure AI Studio
Azure AI Studio に移動します。 Studio を初めて使用するときは、プロジェクトを作成する前に、サブスクリプションを初期化し、ハブを作成する必要があります。 カスタム生成モデルは、プレビュー段階の米国東部と米国中北部でのみ使用できます。 ハブの作成時に、リソース グループが米国東部か米国中北部に設定されていることを確認します。
[Vision + Document] タイルを選択します。
次に、[Document field extraction] タイルを選択し、[Create document field extraction project] ボタンを選択してプロジェクトを作成します。
プロジェクトを作成する。 詳細については、「Azure AI Studio でのプロジェクトの作成」を参照してください。
Azure Document Intelligence サービスにアクセスするための Azure AI サービス接続を作成します。
次に、カスタム モデルのトレーニング データセットをアップロードするために使用したストレージ アカウントを選択します。
プロジェクトの設定を確認し、
Create a Project
を選択して新しいプロジェクトを作成します。 プロジェクトを選択すると、Define schema
ウィンドウが表示され、データセット内のファイルが一覧表示されます。
スキーマを定義する
プロジェクトの最初のタスクは、スキーマを抽出して定義するフィールドを追加することです。
アップロードしたファイルが一覧表示され、ドロップダウン オプションを使用してファイルを選択できます。
➕ Add new field
ボタンをクリックして、フィールドの追加を開始できます。抽出するフィールドの名前、説明、種類を入力します。 すべてのフィールドを追加したら、画面の下部にある
Save
ボタンを選択します。
データへのラベル付け
スキーマが保存されると、アップロードされたすべてのトレーニング ドキュメントが分析され、フィールド値が自動的に抽出されます。 フィールド値は、確認のために画面に一覧表示されます。 自動抽出されたフィールドには、Predicted タグが付けられます。
予測値を確認します。 フィールド値が正しくない場合、または抽出されていない場合は、予測フィールドの上にマウス ポインターを置きます。 ファイルを更新するために、編集ボタンを選択します。
変更されると、Predicted タグは
Corrected
として表示されます。予測フィールドの確認を続けます。 すべてのトレーニング ドキュメントのラベルを確認し、必要に応じて修正したら、モデルの構築に進みます。
Note
モデルのトレーニング中にいつでも戻ってスキーマを更新できますが、自動ラベル機能を使用するには、
Upload files
オプションを使用してファイルを削除して再読み込みする必要があります。
モデルを構築する
データセットにラベルが付いたので、モデルをトレーニングする準備が整いました。 Build model
を選択します。 [モデルの構築] ダイアログ ページで、一意のモデル名と、必要に応じて説明を指定します。 modelID は文字列データ型を受け取ります。
Build
を選択してトレーニング プロセスを開始します。 生成モデルはすぐにトレーニングを開始します。 状態が succeeded に変更されたら、ページを更新してモデルを選択します。
モデルのテスト
モデルのトレーニングが完了したら、[CustomGenerative] ページで
Test
ボタンを選択すると、モデルをテストできます。テスト ファイルをアップロードし、
Run Analysis
を選択してドキュメントからフィールド値を抽出します。Analyze
オプションを使用すると、現在のドキュメントまたはすべてのドキュメントで実行と分析を行うことができます。各フィールドの結果を評価して、モデルの正確性を検証します。
これで完了です。 Azure AI Studio でカスタム生成モデルをトレーニングする方法について学習しました。 モデルは、ドキュメントを分析するために、REST API SDK で使用する準備ができています。