Konfigurera ett textetikettprojekt och exportera etiketter
I Azure Machine Learning lär du dig hur du skapar och kör dataetiketteringsprojekt för att märka textdata. Ange antingen en enskild etikett eller flera etiketter som ska tillämpas på varje textobjekt.
Du kan också använda verktyget för dataetiketter i Azure Machine Learning för att skapa ett bildetikettprojekt.
Funktioner för textetiketter
Azure Machine Learning-dataetiketter är ett verktyg som du kan använda för att skapa, hantera och övervaka dataetiketteringsprojekt. Använd portalen om du vill:
- Samordna data, etiketter och teammedlemmar för att effektivt hantera etiketteringsuppgifter.
- Spåra förloppet och underhålla kön med ofullständiga etiketteringsuppgifter.
- Starta och stoppa projektet och kontrollera förloppet för etikettering.
- Granska och exportera etiketterade data som en Azure Machine Learning-datauppsättning.
Viktigt!
Textdata som du arbetar med i Azure Machine Learning-dataetikettverktyget måste vara tillgängliga i ett Azure Blob Storage-datalager. Om du inte har något befintligt datalager kan du ladda upp dina datafiler till ett nytt datalager när du skapar ett projekt.
Dessa dataformat är tillgängliga för textdata:
- .txt: Varje fil representerar ett objekt som ska märkas.
- .csv eller .tsv: Varje rad representerar ett objekt som visas för etiketten. Du bestämmer vilka kolumner som etikettetiketten kan se när de etiketterar raden.
Förutsättningar
Du använder dessa objekt för att konfigurera textetiketter i Azure Machine Learning:
- De data som du vill märka, antingen i lokala filer eller i Azure Blob Storage.
- Den uppsättning etiketter som du vill använda.
- Instruktionerna för etikettering.
- En Azure-prenumeration. Om du inte har någon Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar.
- En Azure Machine Learning-arbetsyta. Se Skapa en Azure Machine Learning-arbetsyta.
Skapa ett textetikettprojekt
Etiketteringsprojekt administreras i Azure Machine Learning. Använd sidan Dataetiketter i Machine Learning för att hantera dina projekt.
Om dina data redan finns i Azure Blob Storage kontrollerar du att de är tillgängliga som ett datalager innan du skapar etikettprojektet.
Om du vill skapa ett projekt väljer du Lägg till projekt.
Som Projektnamn anger du ett namn för projektet.
Du kan inte återanvända projektnamnet, även om du tar bort projektet.
Om du vill skapa ett textetikettprojekt väljer du Text för Medietyp.
För Aktivitetstyp för etikettering väljer du ett alternativ för ditt scenario:
- Om du bara vill använda en enskild etikett för varje textstycke från en uppsättning etiketter väljer du Textklassificering Flera klasser.
- Om du vill använda en eller flera etiketter på varje textstycke från en uppsättning etiketter väljer du Fleretiketter för textklassificering.
- Om du vill använda etiketter på enskilda textord eller på flera textord i varje post väljer du Text med namngiven entitetsigenkänning.
Klicka på Nästa när du vill fortsätta.
Lägg till personal (valfritt)
Välj Använd ett leverantörsetikettföretag från Azure Marketplace endast om du har anlitat ett dataetikettföretag från Azure Marketplace. Välj sedan leverantören. Om leverantören inte visas i listan avmarkerar du det här alternativet.
Se till att du först kontaktar leverantören och signerar ett kontrakt. Mer information finns i Arbeta med ett leverantörsföretag för dataetiketter (förhandsversion).
Klicka på Nästa när du vill fortsätta.
Välj eller skapa en datauppsättning
Om du redan har skapat en datauppsättning som innehåller dina data väljer du den i listrutan Välj en befintlig datauppsättning . Du kan också välja Skapa en datauppsättning för att använda ett befintligt Azure-datalager eller för att ladda upp lokala filer.
Kommentar
Ett projekt får inte innehålla fler än 500 000 filer. Om datamängden överskrider det här antalet filer läses endast de första 500 000 filerna in.
Skapa en datauppsättning från ett Azure-datalager
I många fall kan du ladda upp lokala filer. Azure Storage Explorer ger dock ett snabbare och mer robust sätt att överföra en stor mängd data. Vi rekommenderar Storage Explorer som standard sätt att flytta filer.
Så här skapar du en datauppsättning från data som redan lagras i Blob Storage:
- Välj Skapa.
- Som Namn anger du ett namn för datauppsättningen. Skriv en beskrivning om du vill.
- Välj typ av datauppsättning:
- Om du använder en .csv- eller .tsv-fil och varje rad innehåller ett svar väljer du Tabell.
- Om du använder separata .txt filer för varje svar väljer du Arkiv.
- Välj Nästa.
- Välj Från Azure Storage och välj sedan Nästa.
- Välj datalagringen och välj sedan Nästa.
- Om dina data finns i en undermapp i Blob Storage väljer du Bläddra för att välja sökvägen.
- Om du vill inkludera alla filer i undermapparna för den valda sökvägen lägger du
/**
till i sökvägen. - Om du vill inkludera alla data i den aktuella containern och dess undermappar lägger du
**/*.*
till i sökvägen.
- Om du vill inkludera alla filer i undermapparna för den valda sökvägen lägger du
- Välj Skapa.
- Välj den datatillgång som du skapade.
Skapa en datauppsättning från uppladdade data
Så här laddar du upp dina data direkt:
- Välj Skapa.
- Som Namn anger du ett namn för datauppsättningen. Skriv en beskrivning om du vill.
- Välj typ av datauppsättning:
- Om du använder en .csv- eller .tsv-fil och varje rad innehåller ett svar väljer du Tabell.
- Om du använder separata .txt filer för varje svar väljer du Arkiv.
- Välj Nästa.
- Välj Från lokala filer och välj sedan Nästa.
- (Valfritt) Välj ett datalager. Standarduppladdningarna till standardbloblagret (workspaceblobstore) för din Machine Learning-arbetsyta.
- Välj Nästa.
- Välj Överför>uppladdningsfiler eller ladda upp>uppladdningsmapp för att välja de lokala filer eller mappar som ska laddas upp.
- Leta upp dina filer eller mappar i webbläsarfönstret och välj sedan Öppna.
- Fortsätt att välja Ladda upp tills du anger alla dina filer och mappar.
- Du kan också markera kryssrutan Skriv över om den redan finns . Kontrollera listan över filer och mappar.
- Välj Nästa.
- Bekräfta informationen. Välj Tillbaka för att ändra inställningarna eller välj Skapa för att skapa datauppsättningen.
- Välj slutligen den datatillgång som du skapade.
Konfigurera inkrementell uppdatering
Om du planerar att lägga till nya datafiler i datauppsättningen använder du inkrementell uppdatering för att lägga till filerna i projektet.
När Aktivera inkrementell uppdatering med jämna mellanrum anges, kontrolleras datauppsättningen regelbundet för att nya filer ska läggas till i ett projekt baserat på märkningens slutförandefrekvens. Kontrollen av nya data stoppas när projektet innehåller högst 500 000 filer.
Välj Aktivera inkrementell uppdatering med jämna mellanrum när du vill att projektet kontinuerligt ska övervaka nya data i datalagringen.
Avmarkera markeringen om du inte vill att nya filer i datalagringen ska läggas till automatiskt i projektet.
Viktigt!
När inkrementell uppdatering är aktiverad ska du inte skapa en ny version för den datauppsättning som du vill uppdatera. Om du gör det visas inte uppdateringarna eftersom dataetikettprojektet är fäst på den ursprungliga versionen. Använd i stället Azure Storage Explorer för att ändra dina data i lämplig mapp i Blob Storage.
Ta inte heller bort data. Om du tar bort data från datauppsättningen som används i ditt projekt uppstår ett fel i projektet.
När projektet har skapats använder du fliken Information för att ändra inkrementell uppdatering, visa tidsstämpeln för den senaste uppdateringen och begära en omedelbar uppdatering av data.
Kommentar
Projekt som använder tabelldatauppsättningsindata (.csv eller .tsv) kan använda inkrementell uppdatering. Men inkrementell uppdatering lägger bara till nya tabellfiler. Uppdateringen identifierar inte ändringar i befintliga tabellfiler.
Ange etikettkategorier
På sidan Etikettkategorier anger du en uppsättning klasser för att kategorisera dina data.
Etiketternas noggrannhet och hastighet påverkas av deras möjlighet att välja mellan klasser. I stället för att till exempel stava ut hela släktet och arterna för växter eller djur, använder du en fältkod eller förkortar släktet.
Du kan antingen använda en platt lista eller skapa grupper med etiketter.
Om du vill skapa en platt lista väljer du Lägg till etikettkategori för att skapa varje etikett.
Om du vill skapa etiketter i olika grupper väljer du Lägg till etikettkategori för att skapa etiketter på den översta nivån. Välj sedan plustecknet (+) under varje översta nivå för att skapa nästa nivå av etiketter för den kategorin. Du kan skapa upp till sex nivåer för gruppering.
Du kan välja etiketter på valfri nivå under taggningsprocessen. Etiketterna Animal
, , Animal/Cat
Animal/Dog
, Color
, , Color/Black
, Color/White
och Color/Silver
är till exempel alla tillgängliga alternativ för en etikett. I ett projekt med flera etiketter finns det inget krav på att välja en av varje kategori. Om det är din avsikt måste du inkludera den här informationen i dina instruktioner.
Beskriva textetikettsuppgiften
Det är viktigt att tydligt förklara etikettuppgiften. På sidan Etiketteringsinstruktioner kan du lägga till en länk till en extern webbplats med etiketteringsinstruktioner, eller så kan du ange instruktioner i redigeringsrutan på sidan. Håll instruktionerna uppgiftsorienterade och lämpliga för målgruppen. Tänk på följande frågor:
- Vilka etiketter kommer etiketterna att se och hur väljer de bland dem? Finns det en referenstext att referera till?
- Vad ska de göra om ingen etikett verkar lämplig?
- Vad ska de göra om flera etiketter verkar lämpliga?
- Vilket förtroendetröskelvärde ska de gälla för en etikett? Vill du ha etikettens bästa gissning om de inte är säkra?
- Vad ska de göra med delvis ockluderade eller överlappande objekt av intresse?
- Vad ska de göra om ett objekt av intresse klipps av bildens kant?
- Vad ska de göra om de tror att de gjorde ett misstag när de har skickat in en etikett?
- Vad ska de göra om de upptäcker problem med bildkvalitet, inklusive dåliga ljusförhållanden, reflektioner, förlust av fokus, oönstrade bakgrund ingår, onormala kameravinklar och så vidare?
- Vad ska de göra om flera granskare har olika åsikter om att tillämpa en etikett?
Kommentar
Etiketter kan välja de första nio etiketterna med hjälp av nummernycklarna 1 till 9.
Kvalitetskontroll (förhandsversion)
Om du vill få mer exakta etiketter använder du sidan Kvalitetskontroll för att skicka varje objekt till flera etiketter.
Viktigt!
Konsensusetiketter finns för närvarande i offentlig förhandsversion.
Förhandsversionen tillhandahålls utan ett serviceavtal och rekommenderas inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade.
Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.
Om du vill att varje objekt ska skickas till flera etiketter väljer du Aktivera konsensusetiketter (förhandsversion). Ange sedan värden för Minsta etiketter och Maximalt antal etiketter för att ange hur många etiketter som ska användas. Se till att du har så många etiketter som möjligt som ditt maximala antal. Du kan inte ändra de här inställningarna när projektet har startats.
Om en konsensus uppnås från det minsta antalet etiketter är objektet märkt. Om en konsensus inte nås skickas objektet till fler etiketter. Om det inte finns någon konsensus när objektet har gått till det maximala antalet etiketter är dess status Behovsgranskning och projektägaren ansvarar för att märka objektet.
Använda ML-assisterad dataetikettering
För att påskynda etiketteringsuppgifterna kan sidan ml-assisterad etikettering utlösa automatiska maskininlärningsmodeller. Maskininlärning (ML)-assisterad etikettering kan hantera både indata för fildata (.txt) och tabelldata (.csv).
Så här använder du ML-assisterad etikettering:
- Välj Aktivera ML-assisterad etikettering.
- Välj datamängdsspråket för projektet. Den här listan visar alla språk som klassen TextDNNLanguages stöder.
- Ange ett beräkningsmål som ska användas. Om du inte har något beräkningsmål på din arbetsyta skapar det här steget ett beräkningskluster och lägger till det i din arbetsyta. Klustret skapas med minst noll noder och kostar ingenting när det inte används.
Mer information om ML-assisterad etikettering
I början av ditt etikettprojekt blandas objekten i en slumpmässig ordning för att minska potentiella fördomar. Den tränade modellen återspeglar dock eventuella fördomar som finns i datamängden. Om till exempel 80 procent av dina objekt är av en enda klass hamnar cirka 80 procent av de data som används för att träna modellen i den klassen.
Om du vill träna den DNN-modell för text som ml-assisterad etikettering använder begränsas indatatexten per träningsexempel till ungefär de första 128 orden i dokumentet. För tabellinmatning sammanfogas alla textkolumner innan den här gränsen tillämpas. Med den här praktiska gränsen kan modellträningen slutföras inom rimlig tid. Den faktiska texten i ett dokument (för filinmatning) eller en uppsättning textkolumner (för tabellinmatning) kan överskrida 128 ord. Gränsen gäller endast vad modellen internt använder under träningsprocessen.
Antalet märkta objekt som krävs för att starta assisterad etikettering är inte ett fast nummer. Det här antalet kan variera avsevärt från ett etikettprojekt till ett annat. Variansen beror på många faktorer, inklusive antalet etikettklasser och etikettfördelningen.
När du använder konsensusetiketter används konsensusetiketten för träning.
Eftersom de slutliga etiketterna fortfarande förlitar sig på indata från etiketten kallas den här tekniken ibland för etikettering av människa i loopen .
Kommentar
ML-assisterad dataetikettering stöder inte standardlagringskonton som skyddas bakom ett virtuellt nätverk. Du måste använda ett lagringskonto som inte är standard för ML-assisterad dataetikettering. Lagringskontot som inte är standard kan skyddas bakom det virtuella nätverket.
Företikettering
När du har skickat tillräckligt med etiketter för träning används den tränade modellen för att förutsäga taggar. Etiketten ser nu sidor som visar förutsagda etiketter som redan finns på varje objekt. Uppgiften innebär sedan att granska dessa förutsägelser och korrigera eventuella felmärkta objekt innan sidan skickas in.
När du har tränat maskininlärningsmodellen på dina manuellt märkta data utvärderas modellen på en testuppsättning med manuellt märkta objekt. Utvärderingen hjälper till att fastställa modellens noggrannhet vid olika förtroendetrösklar. Utvärderingsprocessen anger ett förtroendetröskelvärde som modellen är tillräckligt exakt för att visa företiketter. Modellen utvärderas sedan mot omärkta data. Objekt som har förutsägelser som är mer säkra än tröskelvärdet används för företikettering.
Initiera textetikettprojektet
När etikettprojektet har initierats är vissa aspekter av projektet oföränderliga. Du kan inte ändra aktivitetstyp eller datauppsättning. Du kan ändra etiketter och URL:en för aktivitetsbeskrivningen. Granska inställningarna noggrant innan du skapar projektet. När du har skickat projektet går du tillbaka till översiktssidan för dataetiketter , som visar projektet som Initierande.
Kommentar
Översiktssidan kanske inte uppdateras automatiskt. Efter en paus uppdaterar du sidan manuellt för att se projektets status som Skapad.
Felsökning
Information om problem med att skapa ett projekt eller komma åt data finns i Felsöka dataetiketter.