문서 인텔리전스 증분 분류자 사용
이 콘텐츠는 v4.0(GA)에 적용됩니다.
Azure AI 문서 인텔리전스는 지능형 문서 처리 솔루션을 빌드할 수 있는 클라우드 기반 Azure AI 서비스입니다. 문서 인텔리전스 API는 이미지, PDF, 기타 문서 파일을 분석하여 다양한 콘텐츠, 레이아웃, 스타일, 의미 요소를 추출하고 검색합니다.
문서 인텔리전스 사용자 지정 분류 모델은 레이아웃 및 언어 기능을 결합하여 애플리케이션 내에서 처리하는 문서를 정확하게 검색하고 식별하는 딥 러닝 모델 형식입니다. 사용자 지정 분류 모델은 한 번에 한 페이지씩 입력 파일을 분류하여 파일 내 문서를 식별하고 입력 파일 내 여러 문서 또는 단일 문서의 여러 인스턴스를 식별할 수도 있습니다.
문서 인텔리전스 문서 분류자는 파일에서 알려진 문서 유형을 식별합니다. 여러 문서 형식으로 입력 파일을 처리하거나 문서 형식을 모르는 경우 분류자를 사용하여 문서를 식별합니다. 분류자는 다음 변경이 발생할 때마다 주기적으로 업데이트해야 합니다.
- 기존 클래스에 대한 새 템플릿을 추가합니다.
- 인식을 위해 새 문서 형식을 추가합니다.
- 분류자 신뢰도가 낮습니다.
일부 시나리오에서는 분류자를 학습시키는 데 사용된 원래 문서 집합을 더 이상 가질 수 없습니다. 증분 학습을 사용하면 레이블이 지정된 새 샘플로 분류자를 업데이트할 수 있습니다.
참고 항목
증분 학습은 사용자 지정 모델이 아닌 문서 분류자 모델에만 적용됩니다.
증분 학습은 사용자 지정 분류자의 품질을 향상하려는 경우에 유용합니다. 기존 클래스에 대한 새 학습 샘플을 추가하면 기존 문서 형식에 대한 모델의 신뢰도가 향상됩니다. 예를 들어 기존 양식의 새 버전이 추가되거나 새 문서 형식이 있는 경우 그렇습니다. 예를 들어 애플리케이션에서 새 문서 형식을 유효한 입력으로 지원하기 시작하는 경우입니다.
증분 학습 시작
증분 학습은 새 API 엔드포인트를 도입하지 않습니다.
documentClassifiers:build
요청 페이로드는 증분 학습을 지원하도록 수정됩니다.증분 학습을 수행하면 기존 분류자를 그대로 두고 새 분류자 모델을 만듭니다.
새 분류자는 새로 제공된 샘플과 함께 모든 문서 샘플 및 이전 분류자의 형식을 갖습니다. 애플리케이션이 새로 학습된 분류자에서 작동하도록 업데이트되었는지 확인해야 합니다.
참고 항목
분류자 복사 작업은 현재 사용할 수 없습니다.
증분 분류자 빌드 요청 만들기
증분 분류자 빌드 요청은 빌드 요청과 classify document
비슷하지만 새 baseClassifierId
속성을 포함합니다. baseClassifierId
는 확장하려는 기존 분류자로 설정됩니다. 또한 샘플 집합의 다양한 문서 형식에 대해 docTypes
를 제공해야 합니다. baseClassifier에 존재하는 docType
을 제공하면 요청에 제공된 샘플이 기본 분류자를 학습할 때 제공된 샘플에 추가됩니다. 증분 학습에 추가된 새 docType
값은 새 분류자만 추가됩니다. 샘플을 지정하는 프로세스는 변경되지 않습니다. 자세한 내용은 분류자 모델 학습을 참조하세요.
샘플 POST 요청
증분 문서 분류자 빌드에 대한 샘플 POST
요청
POST
{your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"fileList": "formB.jsonl"
}
}
}
}
POST 응답
모든 문서 인텔리전스 API는 비동기이며 반환된 작업 위치를 폴링하면 빌드 작업에 대한 상태가 제공됩니다. 분류자는 학습 속도가 빠르며 분류자는 1~2분 안에 사용할 수 있습니다.
성공적으로 완료된 경우
- 성공적인
POST
메서드는 서비스가 요청을 만들었음을 나타내는202 OK
응답 코드를 반환합니다. - 번역된 문서가 대상 컨테이너에 있습니다.
POST
요청은Operation-Location
을 비롯한 응답 헤더도 반환합니다. 이 헤더의 값에는 비동기 작업의 상태를 확인하고 동일한 리소스 구독 키가 있는GET
요청을 사용하여 결과를 검색하기 위해 쿼리할 수 있는resultId
가 포함됩니다.
샘플 GET 요청
증분 문서 분류자의 결과를 검색하기 위한 샘플 GET
요청
GET
{your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"createdDateTime": "2022-07-30T00:00:00Z",
"expirationDateTime": "2023-01-01T00:00:00Z",
"apiVersion": "2024-02-29-preview",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"fileList": "formB.jsonl"
}
}
}
}
GET 응답
증분 학습된 분류자의 GET
응답은 표준 분류자 GET
응답과 다릅니다. 증분 학습된 분류자는 지원되는 모든 문서 형식을 반환하지 않습니다. 증분 학습 단계 및 확장된 기본 분류자에서 추가되거나 업데이트된 문서 형식을 반환합니다. 문서 형식의 전체 목록을 얻으려면 기본 분류자를 나열해야 합니다. 기본 분류자를 삭제해도 증분 학습 분류자의 사용에는 영향을 주지 않습니다.
제한
증분 학습은 기본 분류자와 증분 학습된 분류자를 모두 동일한 API 버전에서 학습하는 경우에만 작동합니다. 결과적으로 증분 학습된 분류자는 기본 분류자로 모델 수명 주기가 동일합니다.
증분 분류자의 학습 데이터 세트 크기 제한은 다른 분류자 모델과 동일합니다. 적용 가능한 제한의 전체 목록은 서비스 제한을 참조하세요.
다음 단계
- 문서 분류에 대해 자세히 알아보세요.