Skapa och utforska Azure Machine Learning-datauppsättning med etiketter
I den här artikeln får du lära dig hur du exporterar dataetiketterna från ett Azure Machine Learning-dataetikettprojekt och läser in dem i populära format som en Pandas-dataram för datautforskning.
Vad är datauppsättningar med etiketter?
Azure Machine Learning-datauppsättningar med etiketter kallas etiketterade datauppsättningar. Dessa specifika datauppsättningar är TabularDatasets med en dedikerad etikettkolumn och skapas endast som utdata från Azure Machine Learning-dataetikettprojekt. Skapa ett dataetikettprojekt för bildetiketter eller textetiketter. Machine Learning stöder dataetiketteringsprojekt för bildklassificering, antingen flera etiketter eller flera klasser, och objektidentifiering tillsammans med avgränsade rutor.
Förutsättningar
- En Azure-prenumeration. Om du inte har en Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar.
- Azure Machine Learning SDK för Python eller åtkomst till Azure Machine Learning-studio.
- En Machine Learning-arbetsyta. Se Skapa arbetsyteresurser.
- Åtkomst till ett Azure Machine Learning-dataetikettprojekt. Om du inte har något etikettprojekt skapar du först ett för bildetiketter eller textetiketter.
Exportera dataetiketter
När du har slutfört ett dataetikettprojekt kan du exportera etikettdata från ett etikettprojekt. På så sätt kan du samla in både referensen till data och dess etiketter och exportera dem i COCO-format eller som en Azure Machine Learning-datauppsättning.
Använd knappen Exportera på sidan Projektinformation för ditt etikettprojekt.
COCO
COCO-filen skapas i standardbloblagret för Azure Machine Learning-arbetsytan i en mapp inom export/coco.
Kommentar
I objektidentifieringsprojekt normaliseras de exporterade "bbox-värdena": [x,y,width,height]" i COCO-filen. De skalas till 1. Exempel: en avgränsningsruta på (10, 10) plats med bredden 30 bildpunkter , 60 bildpunkters höjd, i en bild på 640 x 480 bildpunkter kommenteras som (0,015625. 0,02083, 0,046875, 0,125). Eftersom koordinaterna normaliseras visas det som "0.0" som "bredd" och "höjd" för alla bilder. Den faktiska bredden och höjden kan hämtas med hjälp av Python-biblioteket som OpenCV eller Pillow(PIL).
Azure Machine Learning-datauppsättning
Du kan komma åt den exporterade Azure Machine Learning-datamängden i avsnittet Datauppsättningar i din Azure Machine Learning-studio. Sidan Information om datauppsättning innehåller även exempelkod för att komma åt etiketterna från Python.
Dricks
När du har exporterat dina märkta data till en Azure Machine Learning-datauppsättning kan du använda AutoML för att skapa modeller för visuellt innehåll som tränats på dina märkta data. Läs mer i Konfigurera AutoML för att träna modeller för visuellt innehåll med Python
Utforska etiketterade datauppsättningar via Pandas-dataram
Läs in dina märkta datauppsättningar i en Pandas-dataram för att använda populära bibliotek med öppen källkod för datautforskning med to_pandas_dataframe()
metoden från azureml-dataprep
klassen.
Installera klassen med följande gränssnittskommando:
pip install azureml-dataprep
I följande kod är datauppsättningen animal_labels
utdata från ett etikettprojekt som tidigare sparats på arbetsytan.
Den exporterade datamängden är en TabularDataset.
GÄLLER FÖR: Python SDK azureml v1
import azureml.core
from azureml.core import Dataset, Workspace
# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)