자동화된 Machine Learning을 통해 Computer Vision 작업을 위한 데이터 준비 v1
적용 대상: Python SDK azureml v1
Important
이 문서의 일부 Azure CLI 명령에서는 azure-cli-ml
또는 v1(Azure Machine Learning용 확장)을 사용합니다. v1 확장에 대한 지원은 2025년 9월 30일에 종료됩니다. v1 확장은 이 날짜까지 설치하고 사용할 수 있습니다.
2025년 9월 30일 이전에 ml
또는 v2 확장으로 전환하는 것이 좋습니다. v2 확장에 대한 자세한 내용은 Azure ML CLI 확장 및 Python SDK v2를 참조하세요.
Important
Azure Machine Learning의 자동화된 ML을 통해 Computer Vision 모델을 학습시키기 위한 지원은 실험적인 퍼블릭 미리 보기 기능입니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
이 문서에서는 Azure Machine Learning의 자동화된 기계 학습을 사용하여 Computer Vision 모델을 학습시키기 위해 이미지 데이터를 준비하는 방법을 알아봅니다.
AutoML을 사용하여 Computer Vision 작업에 대한 모델을 생성하려면 레이블이 지정된 이미지 데이터를 Azure Machine Learning TabularDataset 형식으로 모델 학습을 위한 입력으로 가져와야 합니다.
TabularDataset에 자동화된 ML에서 사용할 수 있는 스키마가 포함되어 있는지 확인하려면 Azure Machine Learning 데이터 레이블 지정 도구를 사용하거나 변환 스크립트를 사용할 수 있습니다.
필수 조건
자동화된 ML을 사용하여 Computer Vision 모델을 학습시키는 데 사용할 레이블이 지정된 데이터
Azure Machine Learning 데이터 레이블 지정
레이블을 지정한 데이터가 없는 경우 Azure Machine Learning의 데이터 레이블 지정 도구를 사용하여 이미지에 수동으로 레이블을 지정할 수 있습니다. 이 도구는 학습에 필요한 데이터를 허용되는 형식으로 자동 생성합니다.
다음을 위한 데이터 레이블 지정 작업을 만들고, 관리하고, 모니터링하는 데 도움이 됩니다.
- 이미지 분류(다중 클래스 및 다중 레이블)
- 개체 감지(경계 상자)
- 인스턴스 구분(다각형)
데이터 레이블 지정 프로젝트가 이미 있고 해당 데이터를 사용하려는 경우 레이블을 지정한 데이터를 Azure Machine Learning TabularDataset로 내보낼 수 있습니다. 그러면 Computer Vision 모델을 학습시키기 위한 자동화된 ML에서 직접 사용할 수 있습니다.
변환 스크립트 사용
데이터에 VOC 또는 COCO와 같이 인기 있는 Computer Vision 데이터 형식 레이블을 지정한 경우 학습 및 유효성 검사 데이터용 JSONL 파일을 생성하기 위한 도우미 스크립트를 Notebook 예제에서 사용할 수 있습니다.
데이터가 앞에서 언급한 형식을 따르지 않는 경우 사용자 고유의 스크립트를 사용하여 JSON Lines 파일을 생성할 수 있습니다. JSON 줄 파일을 생성하려면 AutoML 이미지 실험용 JSONL 파일에 대한 스키마에 정의된 스키마를 사용합니다.
데이터 파일이 허용되는 JSONL 형식으로 변환된 후 Azure의 스토리지 계정에 업로드할 수 있습니다.
JSONL 파일 및 이미지를 스토리지에 업로드
자동화된 ML 학습에 데이터를 사용하려면 데이터 저장소를 통해 Azure Machine Learning 작업 영역에 데이터를 업로드합니다. 데이터 저장소는 Azure의 스토리지에서 데이터를 업로드/다운로드하고 원격 컴퓨팅 대상에서 상호 작용하는 메커니즘을 제공합니다.
이미지 및 JSONL 파일로 구성된 전체 부모 디렉터리를 작업 영역 생성 시 자동으로 생성되는 기본 데이터 저장소로 업로드합니다. 이 데이터 저장소는 작업 영역 생성 과정 중에 생성된 기본 Azure Blob Storage 컨테이너에 연결됩니다.
# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')
데이터 업로드가 완료되면 Azure Machine Learning TabularDataset를 만들 수 있습니다. 그런 다음 나중에 컴퓨터 비전 모델에 대한 자동화된 ML 실험에 대한 입력으로 사용할 수 있도록 데이터 세트를 작업 영역에 등록합니다.
from azureml.core import Dataset
from azureml.data import DataType
training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
set_column_types={"image_url": DataType.to_stream(ds.workspace)}
)
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)
print("Training dataset name: " + training_dataset.name)