次の方法で共有


Microsoft Syntexのモデルの種類の概要

適用対象: ✓ すべてのカスタム モデル |✓すべての事前構築済みモデル

Microsoft Syntexでのコンテンツの理解は、ドキュメント処理モデルから始まります。 ドキュメント処理モデルを使用すると、SharePoint ドキュメント ライブラリにアップロードされたドキュメントを特定して分類し、各ファイルから必要な情報を抽出できます。

SharePoint ドキュメント ライブラリに適用すると、モデルはコンテンツ タイプに関連付けられます。また、抽出される情報を格納する列があります。 作成したコンテンツタイプは、SharePoint コンテンツタイプ ギャラリーに保存されます。 既存のコンテンツ タイプを使用してスキーマを使用することもできます。

Syntex では、 カスタム モデル事前構築済みモデルが使用されます

Syntex カスタム モデルと事前構築済みモデルの種類を示す図。

モデルには、コンテンツ センターで作成されるエンタープライズ モデルと、ローカル SharePoint サイトで作成されるローカル モデルのいずれかを指定できます。

カスタム モデル

選択するカスタム モデルの種類は、使用するファイルの種類、ファイルの形式と構造、モデルを適用する場所によって異なります。

カスタム モデルには、次のものが含まれます。

カスタム モデルのサイド バイ サイドの違いを表示するには、「カスタム モデルの 比較」を参照してください。

非構造化ドキュメント処理

非構造化ドキュメント処理モデルを使用して、ドキュメントを自動的に分類し、そこから情報を抽出します。 手紙や契約書などの非構造化ドキュメントで最適に機能します。 これらのドキュメントには、フレーズやパターンに基づいて識別できるテキストが含まれている必要があります。 識別されたテキストは、ファイルのタイプ (分類) および抽出するもの (抽出プログラム) の両方を指定します。

たとえば、非構造化ドキュメントは、さまざまな方法で記述できる契約更新レターである可能性があります。 ただし、各契約更新ドキュメントの本文には、テキスト文字列 "サービス開始日" の後に実際の日付が続くなど、一貫して情報が存在します。

このモデル型は、最も広い範囲のファイルの種類をサポートし、 40 を超える言語をサポートします

非構造化ドキュメント処理モデルを作成する場合は、 単一クラス モデル オプションを使用します。

詳細については、「 非構造化ドキュメント処理の概要」を参照してください。

フリーフォームドキュメント処理

フリーフォーム ドキュメント処理モデルを使用して、文書内の任意の場所に情報を表示できる文字やコントラクトなどの非構造化ドキュメントやフリーフォーム ドキュメントから情報を自動的に抽出します。

フリーフォーム ドキュメント処理モデルでは、Microsoft Power Apps AI Builder を使用して Syntex 内でモデルを作成およびトレーニングします。

注:

フリーフォーム ドキュメント処理モデルは、一部のリージョンではまだ使用できません。 詳細については、「 リージョン別の機能の可用性」を参照してください。

organizationは、メール、FAX、電子メールなど、さまざまなソースから大量の文字やドキュメントを受け取るため、これらのドキュメントを処理してデータベースに手動で入力すると、かなりの時間がかかる場合があります。 AI を使用してこれらのドキュメントからテキストやその他の情報を抽出することで、このモデルによってこのプロセスが自動化されます。

このモデルの種類は、ドキュメントの種類を自動分類する必要がなく、 40 を超える言語をサポートしている場合に、PDF またはイメージ ファイル内のドキュメントに最適なオプションです。

フリーフォーム ドキュメント処理モデルを作成する場合は、[ フリーフォーム抽出モデル ] オプションを使用します。

詳細については、「 構造化および自由形式のドキュメント処理の概要」を参照してください。

構造化ドキュメント処理

構造化ドキュメント処理モデルを使用して、フィールドとテーブルの値を自動的に識別します。 フォームや請求書などの構造化ドキュメントまたは半構造化ドキュメントに最適です。

構造化ドキュメント処理モデルでは、Microsoft Power Apps AI Builder ドキュメント処理 (旧称フォーム処理) を使用して、Syntex 内でモデルを作成およびトレーニングします。

このモデル型は 、最も広い範囲の言語 をサポートし、ドキュメントの例からフォームのレイアウトを理解するようにトレーニングされた後、類似の場所から抽出する必要があるデータを探す方法を学習します。 Formsは通常、エンティティが同じ場所 (税フォームの社会保障番号など) にある、より構造化されたレイアウトになります。

構造化ドキュメント処理モデルを作成する場合は、[ 構造化抽出モデル ] オプションを使用します。

詳細については、「 構造化および自由形式のドキュメント処理の概要」を参照してください。

事前構築済みモデル

カスタム モデルを構築する必要がない場合は、特定の構造化ドキュメントに対してトレーニング済 みの事前構築済みのドキュメント処理モデル を使用できます。

事前構築済みモデルには、次のものが含まれます。

事前構築済みモデルは、ドキュメントとドキュメント内の構造化情報を認識するために事前トレーニングされます。 新しいカスタム モデルをゼロから作成する代わりに、既存の事前トレーニング済みモデルを反復処理して、organizationのニーズに合った特定のフィールドを追加できます。

契約処理

事前構築済みのコントラクト処理モデルは、コントラクト ドキュメントからキー情報を分析および抽出します。 API は、さまざまな形式でコントラクトを分析し、クライアント名やパーティー名、請求先住所、管轄区域、有効期限などの主要なコントラクト情報を抽出します。

コントラクト処理モデルの詳細については、「 事前構築済みモデルを使用してコントラクトから情報を抽出する」を参照してください。

請求書処理

事前構築済みの請求書処理モデルでは、売上請求書のキー情報が分析および抽出されます。 API は、さまざまな形式で請求書を分析し、顧客名、請求先住所、期日、支払金額などの主要な請求書情報を抽出します。

請求書処理モデルの詳細については、「 事前構築済みモデルを使用して請求書から情報を抽出する」を参照してください。

領収書処理

事前構築済みのレシート処理モデルでは、売上受領書からキー情報を分析および抽出します。 API は、印刷されたレシートと手書きの領収書を分析し、マーチャント名、マーチャント電話番号、取引日、税金、取引合計などのキーレシート情報を抽出します。

レシート処理モデルの詳細については、「 事前構築済みモデルを使用して領収書から情報を抽出する」を参照してください。

機密情報の処理

事前構築済みの機密情報処理モデルは、ドキュメントから重要な情報を分析、検出、抽出します。 API は、さまざまな形式で契約を分析し、社会保障番号、財務アカウント番号、運転免許証識別番号、その他の個人情報などの重要な機密情報を抽出します。

機密情報処理モデルの詳細については、「 事前構築済みモデルを使用してドキュメントから機密情報を検出する」を参照してください。

簡単なドキュメント処理

事前構築済みの単純なドキュメント処理モデルは、基本的な構造化ドキュメントからキーと値のペア、選択マーク、および名前付きエンティティを抽出するための柔軟で事前トレーニングされたソリューションを提供します。 固定スキーマを持つ他の事前構築済みモデルとは異なり、このモデルは、他のユーザーが見逃す可能性のあるキーを特定できるため、カスタム モデルのラベル付けとトレーニングに代わる貴重な代替手段が提供されます。 このモデルでは、バーコードと言語検出もサポートされています。

単純なドキュメント処理モデルの詳細については、「 事前構築済みモデルを使用してドキュメントから機密情報を検出する」を参照してください。