次の方法で共有


SharePoint での非構造化ドキュメント処理の要件と制限事項

次の表は、非構造化ドキュメント処理モデルの使用を計画する際に考慮すべき重要な要素の概要を示しています。

アイコン 説明
ファイル シンボル。 サポートされているファイルの種類
このモデルでは、.csv、.doc、.docx、 .eml、.heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt .xls、および .xlsx (.xls および .xlsx ファイルの数式は実行されません)。
会話記号。 サポートされている言語
このモデルでは、英語、フランス語、ドイツ語、イタリア語、スペイン語など、ラテンベースのすべての言語がサポートされています。
段落記号。 OCR に関する考慮事項
このモデルでは、光学式文字認識 (OCR) テクノロジを使用して、.pdf ファイル、イメージ ファイル、および.tiff ファイルをスキャンします。 OCR 処理は、次の要件を満たすドキュメントで最適に機能します。
- .jpg、.png、または .pdf のファイル形式 (テキストまたはスキャン)。 文字の抽出と場所にエラーが発生しないため、テキスト埋め込み .pdf ファイルの方が優れています。
- .pdf ファイルがパスワードロックされている場合は、送信する前にロックを削除する必要があります。
- コレクションごとのトレーニングに使用されるドキュメントの合計ファイル サイズは 50 MB を超えてはなりません。また、PDF ドキュメントには 500 ページを超えてはなりません。
- 画像の場合、寸法は 50 x 50 ~ 10,000 x 10,000 ピクセルである必要があります。 非常に幅が広い画像やサイズが奇数の画像 (平面図など) は、OCR プロセスで切り捨てられ、精度が低下する可能性があります。
- .pdf ファイルの場合、サイズは最大 11 x 17 インチで、Legal または A3 の用紙サイズに対応し、小さくする必要があります。
- 紙文書からスキャンした場合、スキャンは高品質の画像である必要があります。
- ラテン文字 (英語) を使用する必要があります。
Microsoft Office のテキスト ベースのファイルと OCR でスキャンされたファイル (.pdf、画像、または.tiff) に関する次の違いに注意してください。
- すべてのファイル: 64,000 文字で切り捨てられます (トレーニング中およびドキュメント ライブラリ内のファイルに対して実行する場合)。
- OCR スキャンされたファイル: 500 ページの制限があります。 OCR によって処理されるのは、PDF ファイルと画像ファイルの種類のみです。
地球記号。 Multi-Geo 環境
Microsoft 365 Multi-Geo 環境で Syntex を設定する場合は、中央の場所でモデルの種類を使用するようにのみ構成できます。 サテライトの場所でこのモデルの種類を使用する場合は、Microsoft サポートにお問い合わせください。
オブジェクト シンボル。 マルチモデル ライブラリ
2 つ以上のトレーニング済みモデルが同じライブラリに適用されている場合、ファイルは、平均信頼度スコアが最も高いモデルを使用して分類されます。 抽出されたエンティティは、適用されたモデルからのみ取得されます。