Подготовка данных для задач компьютерного зрения с помощью автоматизированного машинного обучения (версия 1)
ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python версии 1
Внимание
Для использования некоторых команд Azure CLI, приведенных в этой статье, используйте расширение azure-cli-ml
(версия 1) для Машинного обучения Azure. Поддержка расширения версии 1 будет прекращена 30 сентября 2025 г. Вы можете установить и использовать расширение версии 1 до этой даты.
Рекомендуется перейти на расширение ml
(версия 2) до 30 сентября 2025 г. Дополнительные сведения о расширении версии 2 см. на странице расширения CLI для Azure ML и пакета SDK для Python версии 2.
Внимание
Поддержка обучающих моделей компьютерного зрения с помощью автоматизированного ML в Машинном обучении Azure является экспериментальной признаком общедоступной предварительной версии. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
Из этой статьи вы узнаете, как подготовить данные изображений для обучения моделей компьютерного зрения с помощью автоматизированного машинного обучения в Машинном обучение Azure.
Чтобы создать модели для задач компьютерного зрения с помощью AutoML, необходимо перенести помеченные данные изображения в качестве входных данных для обучения модели в виде Машинное обучение Azure TabularDataset.
Чтобы убедиться, что TabularDataset содержит допустимую схему для использования в автоматизированном ML, можно использовать инструмент создания меток данных для Машинного обучения Azure или скрипт преобразования.
Необходимые компоненты
Ознакомьтесь с принятыми схемами для файлов JSON для экспериментов с компьютерным зрением в AutoML.
Помеченные данные, которые вы хотите использовать для обучения моделей компьютерного зрения с помощью автоматизированного ML.
Маркировка данных Машинного обучения Azure
Если у вас нет помеченных данных, можно использовать инструмент создания меток данных Машинного обучение Azure, чтобы помечать изображения вручную. Этот инструмент автоматически создает данные, необходимые для обучения в принятом формате.
Он помогает создавать и отслеживать задачи меток данных для
- Классификации изображений (с несколькими классами и с несколькими метками)
- Обнаружения объектов (ограничивающий прямоугольник)
- Сегментации экземпляров (многоугольник)
Если у вас уже есть проект маркировки данных и вы хотите использовать эти данные, вы можете экспортировать помеченные данные как TabularDataset Машинного обучения Azure, который затем можно использовать непосредственно с автоматизированным ML для обучения моделей компьютерного зрения.
Использование скриптов преобразования
Если у вас имеются помеченные данные в популярных форматах данных компьютерного зрения, например, VOC или COCO, скрипты вспомогательных приложений для создания файлов JSONL для данных обучения и проверки доступны в примерах в записной книжке.
Если данные не соответствуют ранее упомянутым форматам, можно использовать собственный скрипт для создания файлов СТРОК JSON. Чтобы создать файлы строк JSON, используйте схемы, определенные в схеме для JSONL-файлов для экспериментов с образами AutoML.
После преобразования файлов данных в принятый формат JSONL их можно передать в учетную запись хранения в Azure.
Отправка файла JSONL и изображений на хранение
Чтобы использовать данные для автоматизированного машинного обучения, отправьте их в рабочую область Машинного обучения Azure через хранилищеданных. Хранилище данных предоставляет механизм для отправки или загрузки данных для хранения в Azure и взаимодействия с ними из удаленных целевых объектов вычислений.
Отправка всего родительского каталога, состоящего из изображений и файлов JSONL в хранилище данных по умолчанию, которой автоматьически создается при создании рабочей области. Это хранилище данных подключается к контейнеру хранилища BLOB-объектов Azure по умолчанию, созданному в ходе создания рабочей области.
# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')
После отправки данных можно создать Машинное обучение Azure TabularDataset. Затем зарегистрируйте набор данных в рабочей области для дальнейшего использования в качестве входных данных для автоматизированных экспериментов машинного обучения для моделей компьютерного зрения.
from azureml.core import Dataset
from azureml.data import DataType
training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
set_column_types={"image_url": DataType.to_stream(ds.workspace)}
)
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)
print("Training dataset name: " + training_dataset.name)