Document Intelligence 사용자 지정 템플릿 모델
이 콘텐츠는 v3.1(GA) | 최신 버전: v4.0(GA) | 이전 버전: v3.0 v2.1에 적용됩니다.
이 콘텐츠는 v3.0(GA) | 최신 버전: v4.0(GA) v3.1 | 이전 버전: v2.1에 적용됩니다.
이 콘텐츠는 v2.1 | 최신 버전: v4.0(GA)에 적용됩니다.
사용자 지정 템플릿(이전의 사용자 지정 양식)은 문서에서 레이블이 지정된 키-값 쌍, 선택 표시, 테이블, 지역, 서명을 정확하게 추출하는 학습하기 쉬운 문서 모델입니다. 템플릿 모델은 레이아웃 신호를 사용하여 문서에서 값을 추출하고 정의된 시각적 템플릿을 사용하여 고도로 구조화된 문서에서 필드를 추출하는 데 적합합니다.
사용자 지정 템플릿 모델은 사용자 지정 신경망 모델과 동일한 레이블 지정 형식 및 전략을 공유하며 더 많은 필드 형식 및 언어를 지원합니다.
모델 기능
사용자 지정 템플릿 모델은 키-값 쌍, 선택 표시, 테이블, 서명 필드, 선택된 지역을 지원합니다.
양식 필드 | 선택 표시 | 테이블 형식 필드(테이블) | 서명 | 선택 영역 | 겹치는 필드 |
---|---|---|---|---|---|
지원됨 | 지원됨 | 지원됨 | 지원됨 | 지원됨 | 지원되지 않음 |
표 형식 필드
API 버전 v3.0 이상의 릴리스에서 사용자 지정 템플릿 모델은 페이지 간 테이블 형식 필드(테이블)에 대한 지원을 추가합니다.
- 여러 페이지에 걸쳐 있는 테이블에 레이블을 지정하려면 단일 테이블의 여러 페이지에 걸쳐 테이블의 각 행에 레이블을 지정합니다.
- 가장 좋은 방법은 데이터 세트에 예상되는 변형의 몇 가지 샘플이 포함되어 있는지 확인하는 것입니다. 예를 들어 전체 테이블이 단일 페이지에 있고 문서에서 이러한 변형이 예상되는 경우 테이블이 두 개 이상의 페이지에 걸쳐 있는 샘플을 포함합니다.
표 형식 필드는 표로 인식되지 않는 문서 내에서 반복되는 정보를 추출할 때도 유용합니다. 예를 들어 이력서에서 반복되는 업무 환경 섹션에 레이블을 지정하고 테이블 형식 필드로 추출할 수 있습니다.
변형 처리
템플릿 모델은 정의된 시각적 템플릿을 사용하며 템플릿을 변경하면 정확도가 낮아질 수 있습니다. 이러한 인스턴스에서 각 템플릿의 샘플을 5개 이상 포함하도록 학습 데이터 세트를 분할하고 각 변형에 대한 모델을 학습시킵니다. 그런 다음, 모델을 단일 엔드포인트로 구성할 수 있습니다. 디지털 PDF 문서 및 이미지와 같은 미묘한 변형의 경우 동일한 학습 데이터 세트에 각 형식의 예제를 5개 이상 포함하는 것이 가장 좋습니다.
입력 요구 사항
최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.
지원 파일 형식:
모델 PDF 이미지:
JPEG/JPG
,PNG
,BMP
,TIFF
HEIF
Microsoft Office:
Word(DOCX), Excel(XLSX), PowerPoint(PPTX) 및 HTML읽음 ✔ ✔ ✔ 레이아웃 ✔ ✔ ✔ 일반 문서 ✔ ✔ 사전 제작 ✔ ✔ 사용자 지정 ✔ ✔ ✱ Microsoft Office 파일은 현재 다른 모델 또는 버전에서 지원되지 않습니다.
PDF 및 TIFF의 경우 최대 2,000페이지를 처리할 수 있습니다(무료 계층 구독의 경우 처음 2페이지만 처리됨).
문서 분석을 위한 파일 크기는 유료(S0) 계층의 경우 500MB, 무료(F0) 계층의 경우 4MB입니다.
이미지 크기는 50 x 50픽셀에서 10,000 x 10,000픽셀 사이여야 합니다.
PDF가 암호로 잠긴 경우에는 제출하기 전에 잠금을 해제해야 합니다.
추출할 텍스트의 최소 높이는 1024 x 768 픽셀 이미지의 경우 12픽셀입니다. 이 차원은 150
DPI
(인치당 도트 수)에서 약8
포인트 텍스트에 해당합니다.사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 인공신경망 모델의 경우 50,000개입니다.
사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는 템플릿 모델의 경우 50MB, 신경망 모델의 경우 1G-MB입니다.
사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는 최대 10,000페이지인
1GB
입니다.
모델 학습
사용자 지정 템플릿 모델은 일반적으로 v2.0 API 이상 버전부터 사용할 수 있습니다. 새 프로젝트로 시작하거나 레이블이 지정된 기존 데이터 세트가 있는 경우 Document Intelligence Studio와 함께 v3.1 또는 v3.0 API를 사용하여 사용자 지정 템플릿 모델을 학습합니다.
모델 | REST API | SDK | 모델 레이블 지정 및 테스트 |
---|---|---|---|
사용자 지정 템플릿 | v3.1 API | Document Intelligence SDK | Document Intelligence Studio |
v3.0 이상 API를 사용하면 모델은 학습시키는 빌드 작업이 새 buildMode
속성을 지원하고, 사용자 지정 템플릿 모델을 학습하기 위해 buildMode
를 template
으로 설정합니다.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
사용자 지정 템플릿 모델은 일반적으로 v3.1 API에서 사용할 수 있습니다. 새 프로젝트로 시작하거나 레이블이 지정된 기존 데이터 세트가 있는 경우 Document Intelligence Studio와 함께 v3.1 또는 v3.0 API를 사용하여 사용자 지정 템플릿 모델을 학습합니다.
모델 | REST API | SDK | 모델 레이블 지정 및 테스트 |
---|---|---|---|
사용자 지정 템플릿 | v3.1 API | Document Intelligence SDK | Document Intelligence Studio |
v3.0 이상 API를 사용하면 모델은 학습시키는 빌드 작업이 새 buildMode
속성을 지원하고, 사용자 지정 템플릿 모델을 학습하기 위해 buildMode
를 template
으로 설정합니다.
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
지원되는 언어 및 로캘
지원되는 언어의 전체 목록은 언어 지원 - 사용자 지정 모델 페이지를 참조하세요.
사용자 지정(템플릿) 모델은 일반적으로 v2.1 API에서 사용할 수 있습니다.
모델 | REST API | SDK | 모델 레이블 지정 및 테스트 |
---|---|---|---|
사용자 지정 모델(템플릿) | Document Intelligence 2.1 | Document Intelligence SDK | Document Intelligence 샘플 레이블 도구 |
다음 단계
사용자 지정 모델을 만들고 구성하는 방법을 알아봅니다.