Dela via


Förbereda data för uppgifter med visuellt innehåll med automatiserad maskininlärning v1

GÄLLER FÖR: Python SDK azureml v1

Viktigt!

Några av Azure CLI-kommandona i den här artikeln använder azure-cli-mltillägget , eller v1, för Azure Machine Learning. Stödet för v1-tillägget upphör den 30 september 2025. Du kan installera och använda v1-tillägget fram till det datumet.

Vi rekommenderar att du övergår till mltillägget , eller v2, före den 30 september 2025. Mer information om v2-tillägget finns i Azure Machine Learning CLI-tillägget och Python SDK v2.

Viktigt!

Stöd för att träna modeller för visuellt innehåll med automatiserad ML i Azure Machine Learning är en experimentell offentlig förhandsversionsfunktion. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

I den här artikeln får du lära dig hur du förbereder bilddata för att träna modeller för visuellt innehåll med automatiserad maskininlärning i Azure Machine Learning.

För att generera modeller för uppgifter med visuellt innehåll med AutoML måste du ta med etiketterade bilddata som indata för modellträning i form av en Azure Machine Learning TabularDataset.

För att säkerställa att din TabularDataset innehåller det godkända schemat för förbrukning i automatiserad ML kan du använda dataetikettsverktyget för Azure Machine Learning eller använda ett konverteringsskript.

Förutsättningar

Azure Machine Learning-dataetiketter

Om du inte har märkt data kan du använda Azure Machine Learnings dataetikettverktyg för att manuellt märka bilder. Det här verktyget genererar automatiskt de data som krävs för träning i godkänt format.

Det hjälper till att skapa, hantera och övervaka dataetiketter för

  • Bildklassificering (flera klasser och flera etiketter)
  • Objektidentifiering (avgränsningsruta)
  • Instanssegmentering (polygon)

Om du redan har ett projekt för dataetiketter och vill använda dessa data kan du exportera dina märkta data som en Azure Machine Learning TabularDataset, som sedan kan användas direkt med automatiserad ML för att träna modeller för visuellt innehåll.

Använda konverteringsskript

Om du har märkt data i populära dataformat för visuellt innehåll, till exempel VOC eller COCO, finns hjälpskript för att generera JSONL-filer för tränings- och valideringsdata tillgängliga i notebook-exempel.

Om dina data inte följer något av de tidigare nämnda formaten kan du använda ditt eget skript för att generera JSON Lines-filer. Om du vill generera JSON Lines-filer använder du scheman som definierats i Schema för JSONL-filer för AutoML-bildexperiment.

När dina datafiler har konverterats till det godkända JSONL-formatet kan du ladda upp dem till ditt lagringskonto i Azure.

Ladda upp JSONL-filen och avbildningarna till lagring

Om du vill använda data för automatiserad ML-träning laddar du upp data till din Azure Machine Learning-arbetsyta via ett datalager. Datalagringen ger dig en mekanism för att ladda upp/ladda ned data till lagring i Azure och interagera med dem från dina fjärrberäkningsmål.

Ladda upp hela den överordnade katalogen som består av bilder och JSONL-filer till det standarddatalager som skapas automatiskt när arbetsytan skapas. Det här dataarkivet ansluter till standardcontainern för Azure Blob Storage som skapades när arbetsytan skapades.

# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')

När datauppladdningen är klar kan du skapa en Azure Machine Learning TabularDataset. Registrera sedan datauppsättningen på din arbetsyta för framtida användning som indata till dina automatiserade ML-experiment för modeller för visuellt innehåll.

from azureml.core import Dataset
from azureml.data import DataType

training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
                                                         set_column_types={"image_url": DataType.to_stream(ds.workspace)}
                                                        )
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)

print("Training dataset name: " + training_dataset.name)

Nästa steg