미리 빌드된 모델을 사용하여 Microsoft Syntex 간단한 문서에서 정보를 추출합니다.
간단한 문서 처리 모델은 다음과 같은 정보를 포함하여 기본 구조화된 문서에서 정보를 추출하기 위한 유연하고 미리 학습된 솔루션을 제공합니다.
키-값 쌍 – 레이블 및 해당 정보(예: "이름: Adele Vance")와 같은 이러한 정보를 생각해 보세요.
선택 표시 – 문서의 선택 항목 또는 선택 항목을 나타내는 확인란 또는 기타 표시입니다.
명명된 엔터티 – 문서 텍스트에 언급된 사람, 장소 또는 조직의 이름과 같은 특정 항목입니다.
바코드 – 문서에서 추적 또는 식별 목적으로 사용할 수 있는 데이터를 기계로 읽을 수 있는 표현입니다.
고정 스키마가 있는 미리 빌드된 다른 모델과 달리 이 모델은 다른 사용자가 놓칠 수 있는 키를 식별하여 사용자 지정 모델 레이블 지정 및 학습에 대한 유용한 대안을 제공할 수 있습니다. 이 모델은 바코드 및 언어 검색도 지원합니다.
문서 종류
간단한 문서 처리는 다음과 같은 구조화된 정보를 포함하는 문서 유형에 가장 적합합니다.
Forms – 명확한 필드와 레이블이 있는 경우가 많으므로 키-값 쌍을 더 쉽게 추출할 수 있습니다.
청구서 – 일반적으로 테이블 및 키-값 쌍이 있는 일관된 레이아웃을 포함합니다.
영수증 – 청구서와 유사하게 쉽게 추출할 수 있는 구조화된 데이터가 있습니다.
계약 – 효과적으로 구문 분석할 수 있는 잘 정의된 섹션 및 절을 포함합니다.
은행 명세서 – 추출에 적합한 테이블 및 구조화된 데이터를 포함합니다.
이러한 문서는 OCR(광학 문자 인식) 기능과 키-값 쌍, 선택 표시, 테이블 및 명명된 엔터티를 추출하는 데 사용되는 딥 러닝 프로세스를 활용합니다.
참고
현재 이 모델은 .pdf 및 이미지 파일 형식과 100개 이상의 언어로 제공됩니다. 향후 릴리스에서 지원되는 파일 형식이 더 추가될 예정입니다.
간단한 문서 처리 모델을 사용하려면 다음 단계를 수행합니다.
- 1단계: 모델 만들기
- 2단계: 분석할 예제 파일 업로드
- 3단계: 모델에 대한 추출기 선택
- 4단계: 모델 적용
1단계: 모델 만들기
Syntex에서 모델 만들기의 지침에 따라 간단한 문서 처리 모델을 만듭니다. 그런 다음, 다음 단계를 계속하여 모델을 완료합니다.
2단계: 분석할 예제 파일 업로드
모델 페이지의 분석할 파일 추가 섹션에서 파일 추가를 선택합니다.
모델 분석할 파일 페이지에서 추가를 선택하여 사용할 파일을 찾습니다.
학습 파일 라이브러리에서 파일 추가 페이지에서 파일을 선택한 다음, 추가를 선택합니다.
모델을 분석할 파일 페이지에서 다음을 선택합니다.
3단계: 모델에 대한 추출기 선택
추출기 세부 정보 페이지에는 페이지 오른쪽에 문서 영역이 표시되고 왼쪽에는 추출기 패널이 표시됩니다. 추출기 패널에는 문서에서 식별된 추출기 목록이 표시됩니다.
문서 영역에서 녹색으로 강조 표시된 엔터티 필드는 파일을 분석할 때 모델에서 검색한 항목입니다. 추출할 엔터티를 선택하면 강조 표시된 필드가 파란색으로 변경됩니다. 나중에 엔터티를 포함하지 않기로 결정하면 강조 표시된 필드가 회색으로 변경됩니다. 강조 표시를 사용하면 선택한 추출기의 현재 상태를 더 쉽게 볼 수 있습니다.
팁
엔터티 필드를 읽도록 확대 또는 축소하려면 마우스 스크롤 휠 또는 문서 영역 아래쪽의 확대/축소 컨트롤을 사용합니다.
추출기 엔터티 선택
기본 설정에 따라 문서 영역 또는 추출기 패널에서 추출기를 선택할 수 있습니다.
- 문서 영역에서 추출기를 선택하려면 엔터티 필드를 선택합니다.
- 추출기 패널에서 추출기를 선택하려면 추출 열에서 엔터티 이름 오른쪽에 있는 해당 확인란을 선택합니다.
추출기를 선택하면 추출 기 선택 상자가 문서 영역에 표시됩니다. 상자에는 키 이름(추출기에서 생성된 이름), 검색된 값(문서에서 해당 필드의 값), 열 형식 및 엔터티를 추출기로 선택하는 옵션이 표시됩니다.
모델이 SharePoint 라이브러리에 적용될 때 키 이름은 열 이름으로 사용됩니다. 원하는 경우 키 이름을 더 자세히 설명하도록 변경할 수 있습니다. 열 형식은 정보가 라이브러리에 표시되는 방법을 보여줍니다. 열 형식을 변경하여 정보를 표시하는 방법을 표시할 수 있습니다. 모델이 라이브러리에 적용되면 열 서식을 사용하여 문서에서 모델을 표시할 방법을 지정할 수 있습니다.
사용하려는 다른 추출기를 계속 선택합니다. 이 모델 구성에 대해 분석할 다른 파일을 추가할 수도 있습니다.
추출기 이름 변경
추출기 이름을 바꿀 수 있는 세 가지 방법이 있습니다.
추출기 세부 정보 페이지의 문서 영역에서 엔터티 필드를 선택합니다. 추출기 선택 상자의 키 이름 필드에 추출기 이름을 새로 입력합니다.
추출기 세부 정보 페이지의 추출기 패널에서 이름을 바꿀 추출기를 선택한 다음 이름 바꾸기를 선택합니다.
모델 홈 페이지의 추출기 섹션에서 이름을 바꿀 추출기를 선택한 다음 이름 바꾸기를 선택합니다.
처리를 위한 페이지 범위 설정
이 모델의 경우 전체 파일이 아닌 파일의 페이지 범위를 처리하도록 지정할 수 있습니다. 추출기 패널의 페이지 범위 섹션에서 처리할 페이지를 선택합니다. 기본적으로 페이지 범위 설정은 비어 있습니다. 페이지 범위가 제공되지 않으면 전체 문서가 처리됩니다. 자세한 내용은 특정 페이지에서 정보를 추출하도록 페이지 범위 설정을 참조하세요.
문서의 언어 검색
이 모델의 경우 문서의 언어를 검색하여 열로 추출할 수 있습니다. 추출기 패널의 언어 검색 섹션에서 언어 검색을 켜려면 토글합니다. 검색된 언어를 ISO 코드로 표시합니다.
모델의 모델 설정 패널에서 언어 감지를 켜거나 끌 수도 있습니다.
4단계: 모델 적용
변경 내용을 저장하고 모델 홈 페이지로 돌아가려면 추출기 패널에서 저장 및 종료를 선택합니다.
라이브러리에 모델을 적용할 준비가 되면 문서 영역에서 다음을 선택합니다. 라이브러리에 추가 패널에서 모델을 추가할 라이브러리를 선택한 다음 추가를 선택합니다.