사용자 지정 명명된 엔터티 인식에 대한 질문과 대답

아티클
11/21/2024

Azure AI 언어에서 사용자 지정 NER과 관련된 개념 및 시나리오에 대한 일반적인 질문과 대답을 찾습니다.

서비스를 시작하려면 어떻게 해야 하나요?

첫 번째 프로젝트를 빠르게 만들려면 빠른 시작을 참조하고, 자세한 내용은 프로젝트를 만드는 방법을 참조하세요.

서비스의 제한 사항은 무엇입니까?

자세한 내용은 서비스 제한 문서를 참조하세요.

태그가 지정된 파일의 수는 몇 개인가요?

일반적으로 다양하고 대표적인 태그가 지정된 데이터는 태그 지정이 정확하고 일관되며 완벽하게 수행된다는 점에서 더 나은 결과로 이어집니다. 모든 모델이 잘 수행되도록 하는 태그가 지정된 인스턴스의 수는 설정되지 않습니다. 성능은 스키마와 스키마의 모호성에 따라 크게 달라집니다. 모호한 엔터티 형식에는 더 많은 태그가 필요합니다. 성능도 태그 지정의 품질에 따라 달라집니다. 권장되는 엔터티당 태그가 지정된 인스턴스 수는 50개입니다.

학습 시간이 오래 걸리는데, 예상되는 건가요?

학습 프로세스는 오랜 시간이 걸릴 수 있습니다. 대략적으로 예측할 때 총 길이가 12,800,000자인 파일에 대한 예상 학습 시간은 6시간입니다.

사용자 지정 모델을 프로그래밍 방식으로 빌드하려면 어떻게 해야 하나요?

참고 항목

현재 REST API 또는 Language Studio만 사용하여 모델을 빌드할 수 있습니다.

사용자 지정 모델은 REST API를 사용하여 빌드할 수 있습니다. 이 빠른 시작에 따라 작성 API를 호출하는 방법의 예제에 대한 API를 통해 프로젝트 만들기 및 모델 만들기를 시작합니다.

모델을 사용하여 예측을 시작할 준비가 되면 REST API 또는 클라이언트 라이브러리를 사용할 수 있습니다.

권장되는 CI/CD 프로세스는 무엇인가요?

동일한 프로젝트 내의 동일한 데이터 세트에서 여러 모델을 학습시킬 수 있습니다. 모델이 성공적으로 학습되면 해당 성능을 확인할 수 있습니다. 모델은 Language Studio 내에서 배포 및 테스트할 수 있습니다. 데이터에서 레이블을 추가하거나 제거하고, 새 모델을 학습시키고 테스트할 수도 있습니다. 서비스 제한을 확인하여 동일한 프로젝트를 사용하여 학습된 모델의 최대 수에 대해 알아봅니다. 모델을 학습시킬 때 데이터 세트를 학습 및 테스트 세트로 분할하는 방법을 결정할 수 있습니다. 학습 세트와 테스트 세트로 데이터를 임의로 분할할 수도 있습니다. 단,반영된 모델 평가가 동일한 테스트 세트에 대해 보장되지 않으며 결과를 비교할 수 없습니다. 사용자 고유의 테스트 세트를 개발하고 이를 사용하여 두 모델을 모두 평가하는 것 좋습니다. 그러면 성능 향상을 측정할 수 있습니다.

낮거나 높은 모델 점수가 프로덕션에서 나쁘거나 좋은 성능을 보장하나요?

모델 평가가 항상 포괄적이지 않을 수 있습니다. 이는 다음에 따라 달라집니다.

테스트 세트가 너무 작아서 양호/불량 점수가 모델의 실제 성능을 나타내지 않는 경우 또한 테스트 세트에서 특정 엔터티 유형이 누락되거나 부족한 경우 모델 성능에 영향을 줍니다.
데이터 다양성 데이터가 프로덕션에서 예상하는 텍스트의 몇 가지 시나리오/예제만 다루는 경우 모델은 가능한 모든 시나리오에 공개되지 않으며 학습되지 않은 시나리오에서 제대로 작동하지 않을 수 있습니다.
데이터 표현 모델을 학습시키는 데 사용되는 데이터 세트가 프로덕션 단계에서 모델에 도입되는 데이터를 나타내지 않는 경우 모델 성능이 크게 영향을 받습니다.

자세한 내용은 데이터 선택 및 스키마 설계 문서를 참조하세요.

모델 성능을 향상시키려면 어떻게 해야 하나요?

모델 혼동 행렬을 봅니다. 특정 엔터티 형식이 자주 올바르게 예측되지 않는 경우 이 클래스에 태그가 지정된 인스턴스를 추가하는 것이 좋습니다. 두 엔터티 형식이 서로 자주 예측되는 경우에는 스키마가 모호하므로 성능 향상을 위해 두 엔터티를 하나의 엔터티 형식으로 병합하는 것을 고려해야 합니다.
테스트 세트 예측 검토. 엔터티 형식 중 하나에 다른 형식보다 태그가 지정된 인스턴스가 훨씬 더 많으면 모델이 이 형식으로 편향될 수 있습니다. 다른 엔터티 형식에 더 많은 데이터를 추가하거나 지배적인 형식에서 예제를 제거합니다.
데이터 선택 및 스키마 설계에 대해 자세히 알아봅니다.
테스트 세트를 검토하여 예측된 엔터티와 태그가 지정된 엔터티를 나란히 확인합니다. 그러면 모델 성능을 더 잘 파악하고 스키마 또는 태그의 변경이 필요한지 결정할 수 있습니다.

모델을 다시 학습시키면 다른 결과가 발생하는 이유는 무엇인가요?

모델을 학습할 때 데이터를 학습 및 테스트 세트로 임의로 분할할지 여부를 결정할 수 있습니다. 분할하는 경우 반영된 모델 평가가 동일한 테스트 세트에서 수행된다고 보장되지 않으므로 결과를 비교할 수 없습니다.
동일한 모델을 다시 학습시키는 경우 테스트 세트는 동일하지만 모델의 예측이 약간 변경될 수 있습니다. 이는 학습된 모델이 충분히 강력하지 않고 데이터의 대표성과 고유성 및 태그가 지정된 데이터의 품질을 나타내는 요인이기 때문입니다.

다른 언어로 예측을 얻으려면 어떻게 해야 하나요?

먼저 프로젝트를 만들 때 다국어 옵션을 사용하도록 설정해야 하거나 나중에 프로젝트 설정 페이지에서 이를 사용하도록 설정할 수 있습니다. 모델이 학습되고 배포되면 모델 쿼리를 여러 언어로 시작할 수 있습니다. 다른 언어에 대해 다양한 결과를 얻을 수 있습니다. 모든 언어의 정확도를 높이려면 태그가 지정된 인스턴스를 해당 언어의 프로젝트에 더 추가하여 학습된 모델을 해당 언어의 더 많은 구문에 도입합니다.

모델을 학습시켰지만 테스트할 수 없습니다.

테스트하려면 먼저 모델을 배포해야 합니다.

예측을 위해 학습된 모델을 어떻게 사용해야 하나요?

모델이 배포되면 REST API 또는 클라이언트 라이브러리를 사용하여 예측 API를 호출합니다.

데이터 개인 정보 보호 및 보안

사용자 지정 NER은 GDPR(일반 데이터 보호 규정)을 위한 데이터 프로세서입니다. GDPR 정책에 따라 사용자 지정 NER 사용자는 Language Studio 또는 REST API를 사용하여 프로그래밍 방식으로 사용자 콘텐츠를 보거나 내보내거나 삭제할 수 있는 모든 권한을 갖습니다.

데이터는 Azure Storage 계정에만 저장됩니다. 사용자 지정 NER은 학습 중에 읽을 수 있는 액세스 권한만 갖습니다.

내 프로젝트를 복제하는 방법은 무엇인가요?

프로젝트를 복제하려면 내보내기 API를 사용하여 프로젝트 자산을 내보낸 다음, 새 프로젝트로 가져와야 합니다. 두 작업에 대한 REST API 참조를 참조하세요.

다음을 통해 공유