Sdílet prostřednictvím


Příprava dat pro úlohy počítačového zpracování obrazu pomocí automatizovaného strojového učení v1

PLATÍ PRO: Python SDK azureml v1

Důležité

Některé příkazy Azure CLI v tomto článku používají azure-cli-mlrozšíření (nebo v1) pro Azure Machine Learning. Podpora rozšíření v1 skončí 30. září 2025. Do tohoto data budete moct nainstalovat a používat rozšíření v1.

Doporučujeme přejít na mlrozšíření (nebo v2) před 30. zářím 2025. Další informace o rozšíření v2 najdete v tématu Rozšíření Azure ML CLI a Python SDK v2.

Důležité

Podpora trénování modelů počítačového zpracování obrazu pomocí automatizovaného strojového učení ve službě Azure Machine Learning je experimentální funkce ve verzi Public Preview. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

V tomto článku se dozvíte, jak připravit image dat pro trénování modelů počítačového zpracování obrazu pomocí automatizovaného strojového učení ve službě Azure Machine Learning.

Pokud chcete generovat modely pro úlohy počítačového zpracování obrazu pomocí AutoML, musíte jako vstup pro trénování modelu použít označení data obrázků ve formě tabulkové datové sady Azure Machine Learning.

Pokud chcete zajistit, aby tabulkovádataset obsahovala přijaté schéma pro použití v automatizovaném strojovém učení, můžete použít nástroj pro popisování dat služby Azure Machine Learning nebo použít skript převodu.

Požadavky

Popisování dat ve službě Azure Machine Learning

Pokud nemáte označená data, můžete k ručnímu popisování obrázků použít nástroj popisování dat služby Azure Machine Learning. Tento nástroj automaticky vygeneruje data potřebná pro trénování v přijatém formátu.

Pomáhá vytvářet, spravovat a monitorovat úlohy popisování dat pro

  • Klasifikace obrázků (více tříd a více popisků)
  • Detekce objektů (ohraničující rámeček)
  • Segmentace instancí (mnohoúhelník)

Pokud už máte projekt popisků dat a chcete tato data použít, můžete data s popisky exportovat jako tabulkovou datovou sadu Azure Machine Learning, která se pak dají použít přímo s automatizovaným strojovém učením pro trénování modelů počítačového zpracování obrazu.

Použití skriptů pro převod

Pokud jste označili data v oblíbených formátech dat počítačového zpracování obrazu, jako jsou VOC nebo COCO, pomocné skripty pro generování souborů JSONL pro trénovací a ověřovací data jsou k dispozici v příkladech poznámkových bloků.

Pokud vaše data nedodrží žádný z dříve uvedených formátů, můžete k vygenerování souborů JSON Lines použít vlastní skript. Pokud chcete vygenerovat soubory ŘÁDKŮ JSON, použijte schémata definovaná ve schématu pro soubory JSONL pro experimenty s obrázky AutoML.

Po převodu datových souborů do přijatého formátu JSONL je můžete nahrát do účtu úložiště v Azure.

Nahrání souboru a obrázků JSONL do úložiště

Pokud chcete data použít pro automatizované trénování ML, nahrajte data do pracovního prostoru Azure Machine Learning prostřednictvím úložiště dat. Úložiště dat poskytuje mechanismus pro nahrávání a stahování dat do úložiště v Azure a interakci s nimi ze vzdálených cílových výpočetních prostředků.

Nahrajte celý nadřazený adresář skládající se z obrázků a souborů JSONL do výchozího úložiště dat, které se automaticky vytvoří při vytváření pracovního prostoru. Tento úložiště dat se připojí k výchozímu kontejneru úložiště objektů blob v Azure, který byl vytvořen při vytváření pracovního prostoru.

# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')

Po dokončení nahrávání dat můžete vytvořit tabulkovou datovou sadu Azure Machine Learning. Pak zaregistrujte datovou sadu do svého pracovního prostoru pro budoucí použití jako vstup do experimentů automatizovaného strojového učení pro modely počítačového zpracování obrazu.

from azureml.core import Dataset
from azureml.data import DataType

training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
                                                         set_column_types={"image_url": DataType.to_stream(ds.workspace)}
                                                        )
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)

print("Training dataset name: " + training_dataset.name)

Další kroky