다음을 통해 공유


SharePoint의 비정형 문서 처리에 대한 요구 사항 및 제한 사항

다음 표에서는 비정형 문서 처리 모델을 사용할 계획일 때 고려해야 할 주요 요소를 간략하게 설명합니다.

아이콘 설명
파일 기호입니다. 지원되는 파일 형식
이 모델은 .csv, .doc, .docx 파일 형식을 지원합니다. .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls 및 .xlsx(.xls 및 .xlsx 파일의 수식은 실행되지 않음).
대화 기호입니다. 지원되는 언어
이 모델은 영어, 프랑스어, 독일어, 이탈리아어 및 스페인어를 비롯한 모든 라틴어 기반 언어를 지원합니다.
단락 기호입니다. OCR 고려 사항
이 모델은 OCR(광학 문자 인식) 기술을 사용하여 .pdf 파일, 이미지 파일 및 .tiff 파일을 검사합니다. OCR 처리는 다음 요구 사항을 충족하는 문서에서 가장 잘 작동합니다.
- .jpg, .png 또는 .pdf 파일 형식(텍스트 또는 스캔)입니다. 텍스트 포함 .pdf 파일은 문자 추출 및 위치에 오류가 없으므로 더 좋습니다.
- .pdf 파일이 암호로 잠겨 있는 경우 파일을 제출하기 전에 잠금을 제거해야 합니다.
- 컬렉션당 학습에 사용되는 문서의 결합된 파일 크기는 50MB를 초과하면 안 되며 PDF 문서에는 500페이지를 초과하면 안 됩니다.
- 이미지의 경우 크기는 50 x 50에서 10,000 x 10,000 픽셀 사이여야 합니다. 매우 넓거나 홀수 차원이 있는 이미지(예: 평면도)는 OCR 프로세스에서 잘리고 정확도가 낮아질 수 있습니다.
- .pdf 파일의 경우 크기는 Legal 또는 A3 용지 크기에 해당하는 최대 11 x 17인치여야 합니다.
- 종이 문서에서 스캔하는 경우 스캔은 고품질 이미지여야 합니다.
- 라틴어 알파벳(영어 문자)을 사용해야 합니다.
Microsoft Office 텍스트 기반 파일 및 OCR 스캔 파일(.pdf, 이미지 또는 .tiff)에 대한 다음과 같은 차이점을 확인합니다.
- 모든 파일: 64,000자에서 잘립니다(학습 중 및 문서 라이브러리의 파일에 대해 실행할 때).
- OCR 스캔 파일: 500페이지 제한이 있습니다. PDF 및 이미지 파일 형식만 OCR에서 처리됩니다.
지구본 기호입니다. Multi-Geo 환경
Microsoft 365 Multi-Geo 환경에서 Syntex를 설정할 때는 중앙 위치에서 모델 형식을 사용하도록만 구성할 수 있습니다. 위성 위치에서 이 모델 유형을 사용하려면 Microsoft 지원에 문의하세요.
개체 기호입니다. 다중 모델 라이브러리
학습된 두 개 이상의 모델이 동일한 라이브러리에 적용되는 경우 파일은 평균 신뢰도 점수가 가장 높은 모델을 사용하여 분류됩니다. 추출된 엔터티는 적용된 모델에서만 제공됩니다.