Så här använder du autoetiketter för anpassad textklassificering
Märkningsprocessen är en viktig del av förberedelsen av datamängden. Eftersom den här processen kräver mycket tid och arbete kan du använda funktionen automärkning för att automatiskt märka dina dokument med de klasser som du vill kategorisera dem i. Du kan för närvarande starta autoetiketteringsjobb baserat på en modell med GPT-modeller där du omedelbart kan utlösa ett autoetiketteringsjobb utan någon tidigare modellträning. Den här funktionen kan spara tid och arbete med att etikettera dina dokument manuellt.
Förutsättningar
Innan du kan använda automärkning med GPT behöver du:
- Ett projekt som har skapats med ett konfigurerat Azure Blob Storage-konto.
- Textdata som har laddats upp till ditt lagringskonto .
- Klassnamn som är meningsfulla. GPT-modellerna etiketterar dokument baserat på namnen på de klasser som du har angett.
- Etiketterade data krävs inte.
- En Azure OpenAI-resurs och distribution.
Utlösa ett autoetiketteringsjobb
När du utlöser ett autoetiketteringsjobb med GPT debiteras du för din Azure OpenAI-resurs enligt din förbrukning. Du debiteras en uppskattning av antalet token i varje dokument som autoetiketteras. Se prissättningssidan för Azure OpenAI för en detaljerad uppdelning av priser per token för olika modeller.
I den vänstra navigeringsmenyn väljer du Dataetiketter.
Välj knappen Autoetikett under fönstret Aktivitet till höger på sidan.
Välj Autolabel med GPT och välj Nästa.
Välj din Azure OpenAI-resurs och distribution. Du måste skapa en Azure OpenAI-resurs och distribuera en modell för att kunna fortsätta.
Välj de klasser som du vill ska ingå i autoetiketteringsjobbet. Som standard är alla klasser markerade. Att ha beskrivande namn för klasser, och inklusive exempel för varje klass, rekommenderas för att uppnå etikettering av god kvalitet med GPT.
Välj de dokument som du vill ska etiketteras automatiskt. Vi rekommenderar att du väljer de omärkta dokumenten från filtret.
Kommentar
- Om ett dokument etiketterades automatiskt, men den här etiketten redan var användardefinierad, används endast den användardefinierade etiketten.
- Du kan visa dokumenten genom att klicka på dokumentnamnet.
Välj Starta jobb för att utlösa autoetiketteringsjobbet. Du bör dirigeras till sidan för automatisk etikettering som visar de autoetiketteringsjobb som initierats. Automatisk etikettering av jobb kan ta allt från några sekunder till några minuter, beroende på antalet dokument som du har inkluderat.
Granska de automatiskt märkta dokumenten
När autoetiketteringsjobbet är klart kan du se utdatadokumenten på sidan Dataetiketter i Language Studio. Välj Granska dokument med autoetiketter för att visa dokumenten med det automatiskt märkta filtret tillämpat .
Dokument som har klassificerats automatiskt har föreslagna etiketter i aktivitetsfönstret markerade i lila. Varje föreslagen etikett har två väljare (en bockmarkering och en avbryt-ikon) som gör att du kan acceptera eller avvisa den automatiska etiketten.
När en etikett har godkänts ändras den lila färgen till den blå standardfärgen och etiketten ingår i eventuell ytterligare modellträning som blir en användardefinierad etikett.
När du har godkänt eller avvisat etiketterna för de automatiskt märkta dokumenten väljer du Spara etiketter för att tillämpa ändringarna.
Kommentar
- Vi rekommenderar att du verifierar automatiskt märkta dokument innan du godkänner dem.
- Alla etiketter som inte accepterades tas bort när du tränar din modell.
Nästa steg
- Läs mer om att märka dina data.