사용자 지정 명명된 엔터티 인식 모델 학습
학습은 모델이 레이블이 지정된 데이터에서 학습하는 프로세스입니다. 학습이 완료되면 모델의 성능을 확인하여 모델을 향상시켜야 하는지 결정할 수 있습니다.
모델을 학습시키려면 학습 작업을 시작하고 성공적으로 완료된 작업에서만 모델이 생성됩니다. 학습 작업은 7일 후에 만료되므로 이 시간 후에는 작업 세부 정보를 검색할 수 없습니다. 학습 작업이 성공적으로 완료되고 모델이 만들어진 경우 모델은 영향을 받지 않습니다. 한 번에 하나의 학습 작업만 실행할 수 있으며, 동일한 프로젝트에서 다른 작업을 시작할 수 없습니다.
학습 시간은 어디서든 데이터 세트 크기와 스키마 복잡성에 따라 몇 분(몇 개의 문서만 처리하는 경우)에서 최대 몇 시간까지 걸릴 수 있습니다.
필수 조건
- 구성된 Azure Blob Storage 계정을 사용하여 성공적으로 만들어진 프로젝트
- 스토리지 계정에 업로드된 텍스트 데이터.
- 레이블이 지정된 데이터
자세한 내용은 프로젝트 개발 수명 주기를 참조하세요.
데이터 분할
학습 프로세스를 시작하기 전에 프로젝트의 레이블이 지정된 문서는 학습 세트와 테스트 세트로 나뉩니다. 각각 다른 기능을 제공합니다. 학습 세트는 모델 학습에 사용되며, 모델이 레이블이 지정된 엔터티와 엔터티로 추출할 텍스트 범위를 학습하는 세트입니다. 테스트 세트는 학습 중이 아니라 평가 중에만 도입되는 블라인드 세트입니다. 모델 학습이 성공적으로 완료되면 모델이 테스트의 문서에서 예측을 수행하고 이 예측에 따라 평가 메트릭이 계산됩니다. 모든 엔터티가 학습 세트와 테스트 세트 모두에서 적절하게 표현되도록 하는 것이 좋습니다.
사용자 지정 NER은 다음과 같은 두 가지 데이터 분할 방법을 지원합니다.
- 학습 데이터에서 자동으로 테스트 세트 분할: 선택한 백분율에 따라 시스템에서 레이블이 지정된 데이터를 학습 세트와 테스트 세트 간에 분할합니다. 권장되는 분할 백분율은 학습용으로 80%, 테스트용으로 20%입니다.
참고 항목
학습 데이터에서 자동으로 테스트 세트 분할 옵션을 선택하면 학습 세트에 할당된 데이터만 제공된 백분율에 따라 분할됩니다.
- 학습 및 테스트 데이터에 대한 수동 분할 사용: 이 방법을 사용하면 사용자가 특정 레이블이 지정된 문서가 속해야 하는 세트를 정의할 수 있습니다. 이 단계는 데이터 레이블 지정 중에 문서를 테스트 세트에 추가한 경우에만 사용할 수 있습니다.
모델 학습
Language Studio 내에서 모델 학습을 시작하려면 다음을 수행합니다.
왼쪽 메뉴에서 학습 작업을 선택합니다.
상단 메뉴에서 학습 작업 시작을 선택합니다.
새 모델 학습을 선택하고, 텍스트 상자에서 모델 이름을 입력합니다. 또한 이 옵션을 선택하고 드롭다운 메뉴에서 덮어쓰려는 모델을 선택하면 기존 모델을 덮어쓸 수 있습니다. 학습된 모델을 덮어쓰는 것은 되돌릴 수 없지만, 새 모델을 배포할 때까지 배포된 모델에는 영향을 주지 않습니다.
데이터 분할 방법을 선택합니다. 학습 데이터에서 자동으로 테스트 세트 분할을 선택할 수 있습니다. 여기서 시스템은 지정된 백분율에 따라 레이블이 지정된 데이터를 학습 세트와 테스트 세트 간에 분할합니다. 또는 학습 및 테스트 데이터에 대한 수동 분할을 사용할 수 있습니다. 이 옵션은 데이터 레이블 지정 중에 문서를 테스트 세트에 추가한 경우에만 사용할 수 있습니다. 데이터 분할에 대한 자세한 내용은 모델 학습 방법을 참조하세요.
학습 단추를 선택합니다.
목록에서 교육 작업 ID를 선택하면 이 작업에 대한 학습 진행률, 작업 상태 및 기타 세부정보를 확인할 수 있는 측면 창이 나타납니다.
참고 항목
- 성공적으로 완료된 학습 작업만 모델을 생성합니다.
- 학습은 레이블이 지정된 데이터의 크기에 따라 몇 분에서 몇 시간 사이의 시간이 걸릴 수 있습니다.
- 한 번에 하나의 학습 작업만 실행할 수 있습니다. 실행 중인 작업이 완료될 때까지 동일한 프로젝트 내에서 다른 학습 작업을 시작할 수 없습니다.
학습 작업 취소
Language Studio 내에서 학습 작업을 취소하려면 학습 작업 페이지로 이동합니다. 취소하려는 학습 작업을 선택하고, 위쪽 메뉴에서 취소를 선택합니다.
다음 단계
학습이 완료되면 모델 성능을 확인하여 필요한 경우 선택적으로 모델을 향상시킬 수 있습니다. 모델이 만족스러우면 배포하여 텍스트에서 항목 추출에 사용할 수 있습니다.