Partilhar via


Prepare dados para tarefas de visão computacional com aprendizado de máquina automatizado v1

APLICA-SE A: Python SDK azureml v1

Importante

Alguns dos comandos da CLI do Azure neste artigo usam a extensão , ou v1, para o azure-cli-mlAzure Machine Learning. O suporte para a extensão v1 terminará em 30 de setembro de 2025. Você poderá instalar e usar a extensão v1 até essa data.

Recomendamos que você faça a transição para a mlextensão , ou v2, antes de 30 de setembro de 2025. Para obter mais informações sobre a extensão v2, consulte Extensão CLI do Azure ML e Python SDK v2.

Importante

O suporte para treinar modelos de visão computacional com ML automatizado no Azure Machine Learning é um recurso de visualização pública experimental. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

Neste artigo, você aprenderá a preparar dados de imagem para treinar modelos de visão computacional com aprendizado de máquina automatizado no Azure Machine Learning.

Para gerar modelos para tarefas de visão computacional com o AutoML, você precisa trazer dados de imagem rotulados como entrada para treinamento de modelo na forma de um Conjunto de Dados Tabulares do Azure Machine Learning.

Para garantir que seu TabularDataset contenha o esquema aceito para consumo em ML automatizado, você pode usar a ferramenta de rotulagem de dados do Aprendizado de Máquina do Azure ou usar um script de conversão.

Pré-requisitos

  • Familiarize-se com os esquemas aceitos para arquivos JSONL para experimentos de visão computacional AutoML.

  • Dados rotulados que você deseja usar para treinar modelos de visão computacional com ML automatizado.

Rotulagem de dados do Azure Machine Learning

Se você não tiver dados rotulados, poderá usar a ferramenta de rotulagem de dados do Aprendizado de Máquina do Azure para rotular imagens manualmente. Esta ferramenta gera automaticamente os dados necessários para a formação no formato aceite.

Ele ajuda a criar, gerenciar e monitorar tarefas de rotulagem de dados para

  • Classificação de imagem (multiclasse e multi-label)
  • Deteção de objetos (caixa delimitadora)
  • Segmentação de instâncias (polígono)

Se você já tiver um projeto de rotulagem de dados e quiser usar esses dados, poderá exportar seus dados rotulados como um Conjunto de Dados Tabulares do Aprendizado de Máquina do Azure, que pode ser usado diretamente com ML automatizado para treinar modelos de visão computacional.

Usar scripts de conversão

Se você tiver rotulado dados em formatos populares de dados de visão computacional, como VOC ou COCO, scripts auxiliares para gerar arquivos JSONL para dados de treinamento e validação estão disponíveis em exemplos de bloco de anotações.

Se seus dados não seguirem nenhum dos formatos mencionados anteriormente, você poderá usar seu próprio script para gerar arquivos JSON Lines. Para gerar arquivos JSON Lines, use esquemas definidos em Esquema para arquivos JSONL para experimentos de imagem AutoML.

Depois que seus arquivos de dados forem convertidos para o formato JSONL aceito, você poderá carregá-los em sua conta de armazenamento no Azure.

Carregue o arquivo JSONL e as imagens para o armazenamento

Para usar os dados para treinamento automatizado de ML, carregue os dados em seu espaço de trabalho do Azure Machine Learning por meio de um armazenamento de dados. O armazenamento de dados fornece um mecanismo para você carregar/baixar dados para armazenamento no Azure e interagir com eles a partir de seus destinos de computação remotos.

Carregue todo o diretório pai que consiste em imagens e arquivos JSONL para o armazenamento de dados padrão que é criado automaticamente após a criação do espaço de trabalho. Esse armazenamento de dados se conecta ao contêiner de armazenamento de blob padrão do Azure que foi criado como parte da criação do espaço de trabalho.

# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')

Depois que o carregamento de dados estiver concluído, você poderá criar um Conjunto de Dados Tabulares do Azure Machine Learning. Em seguida, registre o conjunto de dados em seu espaço de trabalho para uso futuro como entrada para seus experimentos automatizados de ML para modelos de visão computacional.

from azureml.core import Dataset
from azureml.data import DataType

training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
                                                         set_column_types={"image_url": DataType.to_stream(ds.workspace)}
                                                        )
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)

print("Training dataset name: " + training_dataset.name)

Próximos passos