Etiketttextdata för träning av din modell för anpassad attitydanalys
Innan du tränar din modell måste du märka dina dokument med de känslor som du vill kategorisera dem i. Dessa data används i nästa steg när du tränar din modell så att din modell kan lära sig av etiketterade data. Om du redan har märkt data kan du importera dem direkt till projektet. Se till att dina data följer det godkända dataformatet.
Innan du skapar en anpassad attitydanalysmodell måste du först ha märkta data. Om dina data inte redan är märkta kan du märka dem i Language Studio. Märkta data informerar modellen om hur text tolkas och används för träning och utvärdering.
Förutsättningar
Innan du kan märka data behöver du:
- Ett projekt som har skapats med ett konfigurerat Azure Blob Storage-konto.
- Dokument som innehåller textdata som har laddats upp till ditt lagringskonto .
Mer information finns i livscykeln för projektutveckling.
Riktlinjer för dataetiketter
När du har förberett dina data och skapat projektet måste du märka dina data. Det är viktigt att märka dina data så att din modell vet vilka dokument som ska associeras med de sentiment du behöver. När du etiketterar dina data i Language Studio (eller importerar etiketterade data) lagras dessa etiketter i JSON-filen i din lagringscontainer som du har anslutit till det här projektet.
När du etiketterar dina data bör du tänka på:
I allmänhet leder mer märkta data till bättre resultat, förutsatt att data är korrekt märkta.
Det finns inget fast antal etiketter som kan garantera att din modell presterar bäst. Modellera prestanda på möjliga tvetydigheter i dina data och kvaliteten på dina märkta data.
Märka dina data
Använd följande steg för att märka dina data:
Gå till projektsidan i Language Studio.
På menyn till vänster väljer du Dataetiketter. Du hittar en lista över alla dokument i lagringscontainern.
Dricks
Du kan använda filtren på den översta menyn för att visa de omärkta filerna så att du kan börja märka dem. Du kan också använda filtren för att visa dokument som är märkta med en specifik attityd.
Ändra till en enda filvy från vänster sida på den översta menyn eller välj en specifik fil för att börja märka. Du hittar en lista över alla
.txt
filer som är tillgängliga i dina projekt till vänster. Du kan använda bakåt- och nästaknappen längst ned på sidan för att navigera i dina dokument.Kommentar
Om du har aktiverat flera språk för projektet hittar du listrutan Språk på den översta menyn, där du kan välja språk för varje dokument.
I den högra rutan kan du lägga till sentiment i projektet för att börja märka dina data med dem.
I den högra rutan under pivoten Etiketter hittar du alla sentiment i projektet och antalet märkta instanser för var och en.
I det nedre avsnittet i rutan till höger kan du lägga till den aktuella filen som du visar i träningsuppsättningen eller testuppsättningen. Som standard läggs alla dokument till i träningsuppsättningen. Läs mer om tränings- och testuppsättningar och hur de används för modellträning och utvärdering.
Dricks
Om du planerar att använda automatisk datadelning använder du standardalternativet att tilldela alla dokument till din träningsuppsättning.
Under pivoten Distribution kan du visa fördelningen mellan tränings- och testuppsättningar. Du har två alternativ för att visa:
- Totalt antal instanser där du kan visa antalet alla märkta instanser av en specifik attityd.
- Dokument med minst en etikett där varje dokument räknas om det innehåller minst en märkt instans av den här attityden.
När du etiketterar synkroniseras ändringarna regelbundet, om de inte har sparats ännu visas en varning överst på sidan. Om du vill spara manuellt klickar du på knappen Spara etiketter längst ned på sidan.
Nästa steg
När du har märkt dina data kan du börja träna en modell som lär sig baserat på dina data.