텍스트 레이블 지정 프로젝트 설정 및 레이블 내보내기
Azure Machine Learning에서 텍스트에 레이블을 지정하는 데이터 레이블 지정 프로젝트를 만들고 실행하는 방법을 알아봅니다. 텍스트 항목의 각 부분에 적용될 레이블을 하나 또는 여러 개를 지정합니다.
또한 Azure Machine Learning에서 데이터 레이블 지정 도구를 사용하여 이미지 레이블 지정 프로젝트를 만들 수 있습니다.
텍스트 레이블 지정 기능
Azure Machine Learning 데이터 레이블 지정은 데이터 레이블 지정 프로젝트를 만들고, 관리하고, 모니터링하는 데 사용할 수 있는 도구입니다. 다음 작업을 수행하는 데 사용합니다.
- 데이터, 레이블 및 팀 멤버를 조정하여 레이블 지정 작업을 효율적으로 관리합니다.
- 진행 상황을 추적하고 불완전한 레이블 지정 작업의 큐를 유지 관리합니다.
- 프로젝트를 시작 및 중지하고 레이블 지정 진행률을 제어합니다.
- 레이블이 지정된 데이터를 검토하고 Azure Machine Learning 데이터 세트로 내보냅니다.
Important
Azure Machine Learning 데이터 레이블 지정 도구에서 사용하는 텍스트 데이터는 Azure Blob Storage 데이터 저장소에서 사용할 수 있어야 합니다. 기존 데이터 저장소가 없는 경우 프로젝트를 만들 때 새 데이터 저장소에 데이터 파일을 업로드할 수 있습니다.
텍스트 데이터에 사용할 수 있는 데이터 형식:
- .txt: 각 파일은 레이블이 지정될 하나의 항목을 나타냅니다.
- .csv 또는 .tsv: 각 행은 레이블 지정자에 제공된 하나의 항목을 나타냅니다. 행에 레이블을 지정할 수 있도록 레이블 지정자에서 볼 수 있는 열을 결정합니다.
필수 조건
다음 항목을 사용하여 Azure Machine Learning에서 텍스트 레이블 지정을 설정합니다.
- 레이블을 지정하려는 데이터(로컬 파일 또는 Azure Blob 스토리지에 있음)입니다.
- 적용하려는 레이블 세트
- 레이블 지정 지침
- Azure 구독 Azure 구독이 아직 없는 경우 시작하기 전에 체험 계정을 만듭니다.
- Azure Machine Learning 작업 영역 Azure Machine Learning 작업 영역 만들기를 참조하세요.
텍스트 레이블 지정 프로젝트 만들기
레이블 지정 프로젝트는 Azure Machine Learning에서 관리됩니다. Machine Learning의 데이터 레이블 지정 페이지를 사용하여 프로젝트를 관리합니다.
데이터가 이미 Azure Blob Storage에 있는 경우 레이블 지정 프로젝트를 만들기 전에 해당 스토리지를 데이터 저장소로 사용할 수 있도록 해야 합니다.
프로젝트를 만들려면 프로젝트 추가를 선택합니다.
프로젝트 이름에 프로젝트의 이름을 입력합니다.
프로젝트를 삭제하더라도 프로젝트 이름을 다시 사용할 수 없습니다.
텍스트 레이블 지정 프로젝트를 만들려면 미디어 유형으로 텍스트를 선택합니다.
레이블 지정 작업 유형에서 다음과 같이 시나리오에 대한 옵션을 선택합니다.
- 레이블 집합의 각 텍스트에 단일 레이블만 적용하려면 텍스트 분류 다중 클래스를 선택합니다.
- 레이블 집합의 각 텍스트에 두 개 이상의 레이블을 적용하려면 텍스트 분류 다중 클래스를 선택합니다.
- 개별 텍스트 단어 또는 각 항목의 여러 텍스트 단어에 레이블을 적용하려면 텍스트 명명된 엔터티 인식을 선택합니다.
다음을 선택하여 작업을 계속할 수 있습니다.
인력 추가(선택 사항)
Azure Marketplace에서 데이터 레이블 지정 회사와 계약한 경우에만 Azure Marketplace의 공급업체 레이블 지정 회사 사용을 선택합니다. 그런 다음, 공급업체를 선택합니다. 공급업체가 목록에 표시되지 않는 경우 이 옵션을 선택 취소합니다.
먼저 공급업체에 문의하고 계약에 서명해야 합니다. 자세한 내용은 데이터 레이블 지정 공급업체 회사와 작업(미리 보기)을 참조하세요.
다음을 선택하여 작업을 계속할 수 있습니다.
데이터 세트 선택 또는 만들기
데이터가 포함된 데이터 세트를 이미 만든 경우 기존 데이터 세트 선택 드롭다운에서 해당 데이터 세트를 선택합니다. 또는 데이터 세트 만들기를 선택하여 기존 Azure 데이터 저장소를 사용하거나 로컬 파일을 업로드할 수도 있습니다.
참고 항목
프로젝트에는 500,000개가 넘는 파일을 포함할 수 없습니다. 데이터 세트가 이 파일 수를 초과하는 경우 처음 500,000개의 파일만 로드됩니다.
Azure 데이터 저장소에서 데이터 세트 만들기
대부분의 경우 로컬 파일을 업로드할 수 있습니다. 그러나 Azure Storage Explorer는 대량의 데이터를 더 빠르고 강력하게 전송할 수 있는 방법을 제공합니다. 파일을 이동하는 기본 방법으로 Storage Explorer를 사용하는 것이 좋습니다.
Blob Storage에 이미 저장된 데이터에서 데이터 세트를 만들려면 다음을 수행합니다.
- 만들기를 실행합니다.
- 이름에 대해 데이터 세트의 이름을 입력합니다. 선택적으로 설명을 입력합니다.
- 데이터 세트 형식을 선택합니다.
- .csv 또는 .tsv 파일을 사용하고 각 행에 응답이 포함된 경우 테이블 형식을 선택합니다.
- 각 응답에 대해 별도의 .txt 파일을 사용하는 경우 파일을 선택합니다.
- 다음을 선택합니다.
- Azure Storage에서를 선택하고 다음을 선택합니다.
- 데이터 저장소를 선택하고, 다음을 선택합니다.
- 데이터가 Blob Storage 내의 하위 폴더에 있으면 찾아보기를 선택하여 경로를 선택합니다.
- 선택한 경로의 하위 폴더에 모든 파일을 포함하려면 경로에
/**
를 추가합니다. - 현재 컨테이너 및 해당 하위 폴더에 모든 데이터를 포함하려면 경로에
**/*.*
를 추가합니다.
- 선택한 경로의 하위 폴더에 모든 파일을 포함하려면 경로에
- 만들기를 실행합니다.
- 만든 데이터 자산을 선택합니다.
업로드된 데이터에서 데이터 세트 만들기
데이터를 직접 업로드하려면 다음을 수행합니다.
- 만들기를 실행합니다.
- 이름에 대해 데이터 세트의 이름을 입력합니다. 선택적으로 설명을 입력합니다.
- 데이터 세트 형식을 선택합니다.
- .csv 또는 .tsv 파일을 사용하고 각 행에 응답이 포함된 경우 테이블 형식을 선택합니다.
- 각 응답에 대해 별도의 .txt 파일을 사용하는 경우 파일을 선택합니다.
- 다음을 선택합니다.
- 로컬 파일에서를 선택하고 다음을 선택합니다.
- (선택 사항) 데이터 저장소를 선택합니다. 기본값은 Machine Learning 작업 영역에 대한 기본 Blob 저장소(workspaceblobstore)에 업로드됩니다.
- 다음을 선택합니다.
- 업로드>파일 업로드 또는 업로드>폴더 업로드를 선택하여 업로드할 로컬 파일 또는 폴더를 선택합니다.
- 브라우저 창에서 파일 또는 폴더를 찾은 다음, 열기를 선택합니다.
- 모든 파일 및 폴더를 지정할 때까지 업로드 를 계속 선택합니다.
- 필요에 따라 파일이 이미 있는 경우 덮어쓰기 확인란을 선택합니다. 파일 및 폴더 목록을 확인합니다.
- 다음을 선택합니다.
- 세부 정보를 확인합니다. 뒤로를 선택하여 설정을 수정하거나, 만들기를 선택하여 데이터 세트를 만듭니다.
- 마지막으로, 만든 데이터 자산을 선택합니다.
증분 새로 고침 구성
데이터 세트에 새 데이터 파일을 추가하려는 경우 증분 새로 고침을 사용하여 파일을 프로젝트에 추가합니다.
정기적으로 증분 새로 고침 사용을 설정하면 레이블 지정 완성율에 따라 새 파일이 프로젝트에 추가될 수 있도록 정기적으로 데이터 세트를 확인합니다. 프로젝트에 최대 500,000개의 파일이 포함되어 있으면 새 데이터에 대한 확인이 중지됩니다.
프로젝트에서 데이터 저장소의 새 데이터를 지속적으로 모니터링하려면 정기적으로 증분 새로 고침 사용을 선택합니다.
데이터 저장소의 새 파일을 프로젝트에 자동으로 추가하지 않으려면 선택을 취소합니다.
Important
증분 새로 고침을 사용하는 경우 업데이트하려는 데이터 세트에 대한 새 버전을 만들지 마세요. 그렇게 하면 데이터 레이블 지정 프로젝트가 초기 버전에 고정되므로 업데이트가 표시되지 않습니다. 대신 Azure Storage Explorer를 사용하여 Blob Storage의 적절한 폴더에 있는 데이터를 수정합니다.
또한 데이터를 제거하지 마세요. 프로젝트에서 사용하는 데이터 세트에서 데이터를 제거하면 프로젝트에 오류가 발생합니다.
프로젝트를 만든 후 세부 정보 탭을 사용하여 증분 새로 고침을 변경하고, 마지막 새로 고침에 대한 타임스탬프를 보고, 즉시 데이터 새로 고침을 요청합니다.
참고 항목
테이블 형식(.csv 또는 .tsv) 데이터 세트 입력을 사용하는 프로젝트에는 증분 새로 고침을 사용할 수 없습니다. 그러나 증분 새로 고침은 새 테이블 형식 파일만 추가합니다. 새로 고침은 기존 테이블 형식 파일의 변경 내용을 인식하지 못합니다.
레이블 범주 지정
레이블 범주 페이지에서 데이터를 분류할 클래스 집합을 지정합니다.
레이블 지정자의 정확도와 속도는 클래스 중에서 선택할 수 있는 기능에 의해 영향을 받습니다. 예를 들어 식물이나 동물에 대한 전체 속과 종을 자세히 설명하는 대신, 필드 코드를 사용하거나 속을 약어 형식으로 축약합니다.
단순 목록을 사용하거나 레이블 그룹을 만들 수 있습니다.
단순 목록을 만들려면 레이블 범주 추가를 선택하여 각 레이블을 만듭니다.
다른 그룹에서 레이블을 만들려면 레이블 범주 추가를 선택하여 최상위 레이블을 만듭니다. 그런 다음, 각 최상위 수준에서 더하기 기호(+)를 선택하여 해당 범주에 대한 다음 수준의 레이블을 만듭니다. 모든 그룹화에 대해 최대 6개의 수준을 만들 수 있습니다.
태그 지정 프로세스 중에 모든 수준에서 레이블을 선택할 수 있습니다. 예를 들어 Animal
, Animal/Cat
, Animal/Dog
, Color
, Color/Black
, Color/White
및 Color/Silver
레이블은 모두 레이블에 사용할 수 있는 선택 항목입니다. 다중 레이블 프로젝트에서는 각 범주 중 하나를 선택할 필요가 없습니다. 그렇게 하려는 경우 지침에 이 정보를 포함해야 합니다.
텍스트 레이블 지정 작업 설명
레이블 지정 작업을 명확하게 설명하는 것이 중요합니다. 레이블 지정 지침 페이지에서 레이블 지정 지침이 있는 외부 사이트에 대한 링크를 추가하거나 페이지의 편집 상자에서 지침을 제공할 수 있습니다. 작업 지향적이고 대상 그룹에 적합한 지침을 유지합니다. 고려해야 하는 질문은 다음과 같습니다.
- 레이블 지정자에게는 어떤 레이블이 표시되며 이중에서 선택하려면 어떻게 해야 하나요? 참조할 참조 텍스트가 있나요?
- 적절한 레이블이 없는 경우 어떻게 해야 하나요?
- 여러 개의 레이블이 적절한 것으로 보이는 경우 어떻게 해야 하나요?
- 레이블에 적용해야 하는 신뢰도 임계값은 무엇인가요? 레이블이 확실하지 않은 경우 레이블 지정자의 최고 추측을 원하시나요?
- 관심 있는 개체가 부분적으로 폐색되거나 겹치는 경우 어떻게 해야 하나요?
- 관심 있는 개체가 이미지의 가장자리에서 잘리는 경우 어떻게 해야 하나요?
- 레이블을 제출한 후에 잘못되었다고 생각하는 경우 어떻게 해야 하나요?
- 조명 조건 불량, 반사, 초점 손실, 원치 않는 배경 포함, 비정상적인 카메라 각도 등과 같은 이미지 품질 문제를 발견하면 어떻게 해야 하나요?
- 여러 검토자가 레이블 적용에 대해 서로 다른 의견을 가지고 있는 경우 어떻게 해야 하나요?
참고 항목
레이블 지정자는 숫자 키 1~9를 사용하여 처음 9개의 레이블을 선택할 수 있습니다.
품질 제어(미리 보기)
보다 정확한 레이블을 얻으려면 품질 제어 페이지에서 각 항목을 여러 레이블 지정자에게 보냅니다.
Important
합의 레이블 지정은 현재 퍼블릭 미리 보기로 제공됩니다.
미리 보기 버전은 서비스 수준 계약 없이 제공되며 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다.
자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
각 항목을 여러 레이블로 보내려면 합의 레이블 지정 사용(미리 보기)을 선택합니다. 그런 다음, 최소 레이블 지정자 및 최대 레이블 지정자에 대한 값을 설정하여 사용할 레이블 지정자의 수를 지정합니다. 사용할 수 있는 최대 수만큼 레이블 지정자가 있는지 확인합니다. 프로젝트가 시작된 후에는 이러한 설정을 변경할 수 없습니다.
최소 레이블 지정자 수에서 합의에 도달하면 항목에 레이블이 지정됩니다. 합의에 도달하지 못하면 항목이 더 많은 레이블 지정자에게 전송됩니다. 항목이 최대 레이블 지정자 수로 전환된 후 합의가 없으면 해당 상태는 검토 필요가 되며 프로젝트 소유자가 항목에 레이블을 지정해야 합니다.
ML 지원 데이터 레이블 지정 사용
레이블 지정 작업을 가속화하기 위해 ML 지원 레이블 지정 페이지에서 자동 기계 학습 모델을 트리거할 수 있습니다. ML(기계 학습) 지원 레이블 지정은 파일(.txt) 및 테이블 형식(.csv) 텍스트 데이터 입력을 모두 처리할 수 있습니다.
ML 지원 레이블 지정을 사용하려면 다음을 수행합니다.
- ML 지원 레이블 지정 사용을 선택합니다.
- 프로젝트에 대한 데이터 세트 언어를 선택합니다. 이 목록에는 TextDNNLanguages 클래스에서 지원하는 모든 언어가 표시됩니다.
- 사용할 컴퓨팅 대상을 지정합니다. 작업 영역에 컴퓨팅 대상이 없는 경우 이 단계에서는 컴퓨팅 클러스터를 만들고 작업 영역에 추가합니다. 클러스터는 최소 0개 노드로 생성됩니다. 즉, 사용하지 않을 때는 비용이 들지 않습니다.
ML 지원 레이블 지정에 대한 자세한 정보
레이블 지정 프로젝트가 시작될 때 잠재적인 편향을 줄이기 위해 항목이 임의의 순서로 섞입니다. 그러나 학습된 모델은 데이터 세트에 있는 모든 편향을 반영합니다. 예를 들어 항목의 80%가 단일 클래스인 경우 모델을 학습시키는 데 사용되는 데이터의 약 80%가 해당 클래스에 배치됩니다.
ML 지원 레이블 지정에서 사용되는 텍스트 DNN 모델에 대한 학습의 경우 학습 예제당 입력 텍스트는 대략적으로 문서의 처음 128개 단어로 제한됩니다. 테이블 형식 입력의 경우 이 제한을 적용하기 전에 모든 텍스트 열이 먼저 연결됩니다. 이 실용적인 제한을 통해 모델 학습을 적절한 시간 내에 완료할 수 있습니다. 문서의 실제 텍스트(파일 입력의 경우) 또는 텍스트 열 집합(테이블 형식 입력의 경우)은 128개 단어를 초과할 수 있습니다. 이 제한은 학습 과정에서 모델이 내부적으로 사용하는 항목에만 적용됩니다.
지원 레이블 지정을 시작하는 데 필요한 레이블 지정 항목의 수는 고정되어 있지 않습니다. 이 수는 레이블 지정 프로젝트마다 크게 다를 수 있습니다. 분산은 레이블 클래스 수 및 레이블 분포를 비롯한 여러 요인에 따라 달라집니다.
합의 레이블 지정을 사용하는 경우 합의 레이블이 학습에 사용됩니다.
최종 레이블에서 여전히 레이블 지정자의 입력을 사용하므로 이 기술을 인간 참여형 레이블 지정이라고 하는 경우도 있습니다.
참고 항목
ML 지원 데이터 레이블 지정은 가상 네트워크 뒤에서 보호되는 기본 스토리지 계정을 지원하지 않습니다. ML 지원 데이터 레이블 지정에는 기본이 아닌 스토리지 계정을 사용해야 합니다. 기본이 아닌 스토리지 계정은 가상 네트워크 뒤에서 보호할 수 있습니다.
사전 레이블 지정
학습을 위한 충분한 레이블을 제출한 후에는 학습된 모델을 사용하여 태그를 예측합니다. 이제 레이블 지정자에는 이미 각 항목에 있는 예측된 레이블이 포함된 페이지가 표시됩니다. 이 작업에는 페이지 제출 전에 이러한 예측을 검토하고 레이블이 잘못 지정된 항목을 수정하는 작업이 포함됩니다.
기계 학습 모델이 수동으로 레이블이 지정된 데이터가 학습되면 수동으로 레이블이 지정된 항목의 테스트 세트에 대해 모델이 평가됩니다. 이 평가는 서로 다른 신뢰도 임계값에서 모델의 정확도를 결정하는 데 도움이 됩니다. 이 평가 프로세스는 사전 레이블을 표시할 만큼 모델이 충분히 정확한 것으로 인식되는 신뢰도 임계값을 설정합니다. 그런 다음, 레이블이 없는 데이터에 대해 모델을 평가합니다. 이 임계값보다 더 확실한 예측이 있는 항목은 사전 레이블 지정에 사용됩니다.
텍스트 레이블 지정 프로젝트 초기화
레이블 지정 프로젝트가 초기화되면 프로젝트의 일부 측면을 변경할 수 없습니다. 작업 유형 또는 데이터 세트는 변경할 수 없습니다. 작업 설명에 대한 레이블과 URL은 수정할 수 있습니다. 먼저 설정을 신중하게 검토한 후에 프로젝트를 만들어야 합니다. 프로젝트를 제출한 후에는 데이터 레이블 지정 개요 페이지로 돌아갑니다. 이 페이지에서 프로젝트는 초기화 중으로 표시됩니다.
참고 항목
개요 페이지 새로 고침이 자동으로 이루어지지 않을 수 있습니다. 잠시 중지했다가 페이지를 수동으로 새로 고쳐 프로젝트의 상태가 만들어짐인지 확인합니다.
문제 해결
프로젝트를 만들거나 데이터에 액세스하는 데 문제가 있는 경우 데이터 레이블 지정 문제 해결을 참조하세요.