다음을 통해 공유


모범 사례: 레이블이 지정된 데이터 세트 생성

이 콘텐츠는확인 표시 v4.0(GA) | 이전 버전: 파란색 확인 표시 v3.1(GA)파란색 확인 표시 v3.0(GA)에 적용됩니다.

사용자 지정 모델(템플릿 및 신경망)에는 모델을 학습하기 위해 최소 5개 문서의 레이블이 지정된 데이터 세트가 필요합니다. 레이블이 지정된 데이터 세트의 품질은 학습된 모델의 정확도에 영향을 미칩니다. 이 가이드는 다양한 데이터 세트를 조합하여 정확도가 높은 모델을 생성하는 방법에 대해 자세히 알아보고 문서에 레이블을 지정하는 모범 사례를 제공합니다.

레이블이 지정된 데이터 세트의 구성 요소 이해

레이블이 지정된 데이터 세트는 다음과 같은 여러 파일로 구성됩니다.

  • 샘플 문서 집합(일반적으로 PDF 또는 이미지)을 제공합니다. 모델을 학습하려면 최소 5개의 문서가 필요합니다.

  • 또한 레이블 지정 프로세스는 다음 파일을 생성합니다.

    • 첫 번째 필드가 추가되면 fields.json 파일이 만들어집니다. 전체 학습 데이터 세트에 대해 하나의 fields.json 파일이 있으며 필드 목록에는 필드 이름과 연결된 하위 필드 및 형식이 포함됩니다.

    • Studio는 레이아웃 API를 통해 각 문서를 실행합니다. 데이터 세트의 각 샘플 파일에 대한 레이아웃 응답이 {file}.ocr.json으로 추가됩니다. 레이아웃 응답은 텍스트의 특정 범위에 레이블이 지정될 때 필드 레이블을 생성하는 데 사용됩니다.

    • 문서에서 필드에 레이블이 지정되면 {file}.labels.json 파일이 만들어지거나 업데이트됩니다. 레이블 파일에는 사용자가 특정 필드의 값으로 추가하는 각 텍스트 범위에 대한 레이아웃 출력의 텍스트 범위 및 관련 다각형이 포함되어 있습니다.

동영상: 사용자 지정 레이블 팁 및 포인터

  • 다음 동영상은 더 높은 정확도로 사용자 지정 모델을 빌드하는 데 도움이 되는 두 가지 프레젠테이션 중 첫 번째입니다(두 번째 프레젠테이션에서는 문서 레이블 지정 모범 사례를 살펴봅니다).

  • 균형 잡힌 데이터 세트를 만들고 레이블을 지정할 올바른 문서를 선택하는 방법을 살펴봅니다. 이 과정을 통해 더 높은 품질의 모델을 얻을 수 있습니다.

균형 잡힌 데이터 세트 만들기

레이블 지정을 시작하기 전에 문서의 몇 가지 다른 샘플을 살펴보고 레이블이 지정된 데이터 세트에서 사용할 샘플을 식별하는 것이 좋습니다. 균형 잡힌 데이터 세트는 문서에 대해 예상되는 모든 일반적인 변형을 나타냅니다. 균형 잡힌 데이터 세트를 만들면 가능한 가장 높은 정확도를 가진 모델이 만들어집니다. 고려해야 할 몇 가지 예는 다음과 같습니다.

  • 문서 형식: 디지털 문서와 검사한 문서를 모두 분석하려는 경우 학습 데이터 세트에 각 형식의 몇 가지 예를 추가합니다.

  • 변형(템플릿 모델): 데이터 세트를 폴더로 분할하고 각 변형에 대해 모델을 학습시키는 것이 좋습니다. 구조 또는 레이아웃을 포함하는 모든 변형은 다른 모델로 분할되어야 합니다. 그런 다음 개별 모델을 하나의 구성된 모델로 구성할 수 있습니다.

  • 변형(신경망 모델): 데이터 세트에 약 15개 이하의 관리 가능한 변형 집합이 있는 경우 각 변형의 몇 가지 샘플로 단일 데이터 세트를 만들어 단일 모델을 학습합니다. 템플릿 변형 수가 15개보다 크면 여러 모델을 학습시키고 함께 구성합니다.

  • 테이블: 행 수가 가변적인 테이블이 포함된 문서의 경우 학습 데이터 세트가 행 수가 다른 문서도 나타내는지 확인합니다.

  • 다중 페이지 테이블: 테이블이 여러 페이지에 걸쳐 있는 경우 단일 테이블에 레이블을 지정합니다. 예상되는 변형이 표시된 학습 데이터 세트에 문서를 추가합니다. 단일 페이지에만 테이블이 있는 문서와 레이블이 지정된 모든 행이 있는 두 페이지 이상에 걸쳐 있는 테이블이 있는 문서입니다.

  • 선택 필드: 데이터 세트에 옵션 필드가 있는 문서가 포함된 경우 학습 데이터 세트에 옵션이 표시된 문서가 몇 개 있는지 유효성을 검사합니다.

필드를 식별하여 시작

시간을 내어 데이터 세트에서 레이블을 지정하려는 각 필드를 식별합니다. 선택적 필드에 주의합니다. 지원되는 형식과 가장 일치하는 레이블로 필드를 정의합니다.

다음 지침을 사용하여 필드를 정의합니다.

  • 사용자 지정 신경망 모델의 경우 의미 체계로 관련된 필드 이름을 사용합니다. 예를 들어, 추출되는 값이 Effective Date인 경우 date1과 같은 일반 이름이 아닌 effective_date 또는 EffectiveDate로 이름을 지정합니다.

  • 이상적으로는 파스칼 또는 카멜 대/소문자로 필드 이름을 지정합니다.

  • 값이 시각적으로 반복되는 구조의 일부이고 단일 값만 필요한 경우 테이블로 레이블을 지정하고 후처리 중에 필요한 값을 추출합니다.

  • 여러 페이지에 걸쳐 있는 테이블 형식 필드의 경우 필드를 단일 테이블로 정의하고 레이블을 지정합니다.

참고 항목

사용자 지정 신경망 모델은 사용자 지정 템플릿 모델과 동일한 레이블 지정 형식 및 전략을 공유합니다. 현재 사용자 지정 신경망 모델은 사용자 지정 템플릿 모델에서 지원하는 필드 형식의 하위 집합만 지원합니다.

모델 기능

사용자 지정 신경망 모델은 현재 키-값 쌍, 구조화된 필드(테이블) 및 선택 표시만 지원합니다.

모델 유형 양식 필드 선택 표시 표 형식 필드 서명 지역 겹치는 필드
사용자 지정 인공신경망 ✔️지원됨 ✔️지원됨 ✔️지원됨 지원되지 않음 ✔️지원됨1 ✔️지원됨2
사용자 지정 템플릿 ✔️지원됨 ✔️지원됨 ✔️지원됨 ✔️지원됨 ✔️지원됨 지원되지 않음

1 지역 레이블 지정 구현은 템플릿과 신경망 모델 간에 다릅니다. 템플릿 모델의 경우 레이블이 지정된 영역에서 텍스트를 찾을 수 없는 경우 학습 프로세스는 학습 시 가상 데이터를 삽입합니다. 신경 모델을 사용하면 가상 텍스트가 삽입되지 않으며 인식된 텍스트가 있는 그대로 사용됩니다.
2 겹치는 필드는 API 버전 v4.0 2024-11-30 (GA)부터 지원됩니다. 겹치는 필드에는 몇 가지 제한이 있습니다. 자세한 내용은 겹치는 필드참조하세요.

표 형식 필드

테이블 형식 필드(테이블)는 API 버전을 v4.0 2024-11-30 (GA)사용하는 사용자 지정 신경망 모델에서 지원됩니다. API 버전 2022-06-30-preview 이상으로 학습된 모델은 테이블 형식 필드 레이블을 허용하고 API 버전 2022-06-30-preview 이상이 있는 모델로 분석된 문서는 analyzeResult 개체 결과의 documents 섹션 내 출력에 테이블 형식 필드를 생성합니다.

표 형식 필드는 기본적으로 크로스 페이지 테이블을 지원합니다. 여러 페이지에 걸쳐 있는 테이블에 레이블을 지정하려면 단일 테이블의 여러 페이지에 걸쳐 테이블의 각 행에 레이블을 지정합니다. 가장 좋은 방법은 데이터 세트에 예상되는 변형의 몇 가지 샘플이 포함되어 있는지 확인하는 것입니다. 예를 들어, 전체 테이블이 단일 페이지에 있는 샘플과 둘 이상의 페이지에 걸쳐 있는 테이블 샘플을 모두 포함합니다.

표 형식 필드는 표로 인식되지 않는 문서 내에서 반복되는 정보를 추출할 때도 유용합니다. 예를 들어 이력서에서 반복되는 업무 환경 섹션에 레이블을 지정하고 테이블 형식 필드로 추출할 수 있습니다.

참고 항목

레이블이 지정된 테이블 필드는 응답의 documents 섹션의 일부로 추출됩니다. 응답에는 레이아웃 모델이 문서에서 추출한 테이블이 포함된 tables 섹션도 포함되어 있습니다. 필드에 테이블로 레이블을 지정한 경우 응답의 문서 섹션에서 필드를 찾습니다.

레이블 지정 지침

  • 레이블 지정 값이 필요합니다. 주변 텍스트를 포함하지 마세요. 예를 들어, 확인란에 레이블을 지정할 때 문서에서 예 또는 아니요 텍스트에 레이블을 지정하는 대신 selectionYesselectionNo와 같이 확인란 선택을 나타내도록 필드 이름을 지정합니다.

  • 인터리빙 필드 값을 제공하지 마세요. 한 분야의 단어 및/또는 지역의 값은 자연스러운 읽는 순서대로 연속된 시퀀스여야 합니다.

  • 일관된 레이블 지정. 값이 문서의 여러 컨텍스트에 표시되는 경우 문서 전체에서 동일한 컨텍스트를 일관되게 선택하여 값에 레이블을 지정합니다.

  • 시각적으로 반복되는 데이터. 테이블은 명시적 테이블뿐만 아니라 시각적으로 반복되는 정보 그룹을 지원합니다. 명시적 테이블은 분석된 문서의 테이블 섹션에서 레이아웃 출력의 일부로 식별되며 테이블로 레이블을 지정할 필요가 없습니다. 정보가 시각적으로 반복되고 레이아웃 응답의 일부로 테이블로 식별되지 않는 경우에만 테이블 필드에 레이블을 지정합니다. 이력서의 반복되는 업무 환경 섹션을 예로 들 수 있습니다.

  • 지역 레이블 지정(사용자 지정 템플릿). 특정 지역에 레이블을 지정하면 값이 없을 때 값을 정의할 수 있습니다. 값이 선택 사항인 경우 레이블이 지정되지 않은 지역에 몇 개의 샘플 문서를 남겨 두어야 합니다. 지역에 레이블을 지정할 때 레이블과 함께 주변 텍스트를 포함하지 마세요.

  • 겹치는 필드(사용자 지정 인공신경망). 지역 레이블 지정을 사용하여 필드 겹침에 레이블을 지정합니다. 학습 데이터 세트에서 필드가 겹칠 수 있는 방법을 설명하는 샘플이 하나 이상 있는지 확인합니다.

다음 단계