Dela via


Skapa och utforska Azure Machine Learning-datauppsättning med etiketter

I den här artikeln får du lära dig hur du exporterar dataetiketterna från ett Azure Machine Learning-dataetikettprojekt och läser in dem i populära format som en Pandas-dataram för datautforskning.

Vad är datauppsättningar med etiketter?

Azure Machine Learning-datauppsättningar med etiketter kallas etiketterade datauppsättningar. Dessa specifika datauppsättningar är TabularDatasets med en dedikerad etikettkolumn och skapas endast som utdata från Azure Machine Learning-dataetikettprojekt. Skapa ett dataetikettprojekt för bildetiketter eller textetiketter. Machine Learning stöder dataetiketteringsprojekt för bildklassificering, antingen flera etiketter eller flera klasser, och objektidentifiering tillsammans med avgränsade rutor.

Förutsättningar

Exportera dataetiketter

När du har slutfört ett dataetikettprojekt kan du exportera etikettdata från ett etikettprojekt. På så sätt kan du samla in både referensen till data och dess etiketter och exportera dem i COCO-format eller som en Azure Machine Learning-datauppsättning.

Använd knappen Exporterasidan Projektinformation för ditt etikettprojekt.

Knappen Exportera i studiogränssnittet

COCO

COCO-filen skapas i standardbloblagret för Azure Machine Learning-arbetsytan i en mapp inom export/coco.

Kommentar

I objektidentifieringsprojekt normaliseras de exporterade "bbox-värdena": [x,y,width,height]" i COCO-filen. De skalas till 1. Exempel: en avgränsningsruta på (10, 10) plats med bredden 30 bildpunkter , 60 bildpunkters höjd, i en bild på 640 x 480 bildpunkter kommenteras som (0,015625. 0,02083, 0,046875, 0,125). Eftersom koordinaterna normaliseras visas det som "0.0" som "bredd" och "höjd" för alla bilder. Den faktiska bredden och höjden kan hämtas med hjälp av Python-biblioteket som OpenCV eller Pillow(PIL).

Azure Machine Learning-datauppsättning

Du kan komma åt den exporterade Azure Machine Learning-datamängden i avsnittet Datauppsättningar i din Azure Machine Learning-studio. Sidan Information om datauppsättning innehåller även exempelkod för att komma åt etiketterna från Python.

Exporterad datauppsättning

Dricks

När du har exporterat dina märkta data till en Azure Machine Learning-datauppsättning kan du använda AutoML för att skapa modeller för visuellt innehåll som tränats på dina märkta data. Läs mer i Konfigurera AutoML för att träna modeller för visuellt innehåll med Python

Utforska etiketterade datauppsättningar via Pandas-dataram

Läs in dina märkta datauppsättningar i en Pandas-dataram för att använda populära bibliotek med öppen källkod för datautforskning med to_pandas_dataframe() metoden från azureml-dataprep klassen.

Installera klassen med följande gränssnittskommando:

pip install azureml-dataprep

I följande kod är datauppsättningen animal_labels utdata från ett etikettprojekt som tidigare sparats på arbetsytan. Den exporterade datamängden är en TabularDataset.

GÄLLER FÖR: Python SDK azureml v1

import azureml.core
from azureml.core import Dataset, Workspace

# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()

import matplotlib.pyplot as plt
import matplotlib.image as mpimg

#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)

Nästa steg