Termer och definitioner som används i anpassad textklassificering
Använd den här artikeln om du vill veta mer om några av de definitioner och termer som du kan stöta på när du använder anpassad textklassificering.
Klass
En klass är en användardefinierad kategori som anger textens övergripande klassificering. Utvecklare märker sina data med sina klasser innan de skickar dem till träningsmodellen.
F1-poäng
F1-poängen är en funktion av Precision och Recall. Det behövs när du söker en balans mellan precision och återkallande.
Modell
En modell är ett objekt som har tränats att utföra en viss uppgift, i det här fallet textklassificeringsuppgifter. Modeller tränas genom att tillhandahålla etiketterade data att lära av så att de senare kan användas för klassificeringsuppgifter.
- Modellträning är en process där du lär din modell hur du klassificerar dokument baserat på dina märkta data.
- Modellutvärdering är den process som sker direkt efter träningen för att veta hur väl modellen presterar.
- Distribution är processen att tilldela din modell till en distribution för att göra den tillgänglig för användning via förutsägelse-API:et.
Precision
Mäter hur exakt/exakt din modell är. Det är förhållandet mellan de korrekt identifierade positiva identifieringarna (sanna positiva identifieringar) och alla identifierade positiva identifieringar. Precisionsmåttet visar hur många av de förutsagda klasserna som är korrekt märkta.
Projekt
Ett projekt är ett arbetsområde för att skapa dina anpassade ML-modeller baserat på dina data. Ditt projekt kan bara nås av dig och andra som har åtkomst till den Azure-resurs som används.
Som en förutsättning för att skapa ett anpassat textklassificeringsprojekt måste du ansluta resursen till ett lagringskonto med din datauppsättning när du skapar ett nytt projekt. Projektet innehåller automatiskt alla filer som .txt
är tillgängliga i containern.
I projektet kan du göra följande:
- Märka dina data: Processen för att märka dina data så att när du tränar din modell lär den sig vad du vill extrahera.
- Skapa och träna din modell: Huvudsteget i projektet, där din modell börjar lära sig från dina märkta data.
- Visa information om modellutvärdering: Granska modellens prestanda för att avgöra om det finns utrymme för förbättringar, eller om du är nöjd med resultatet.
- Distribution: När du har granskat modellens prestanda och bestämt att den är lämplig att användas i din miljö måste du tilldela den till en distribution för att kunna köra frågor mot den. Genom att tilldela modellen till en distribution blir den tillgänglig för användning via förutsägelse-API:et.
- Testmodell: När du har distribuerat din modell kan du använda den här åtgärden i Language Studio för att testa distributionen och se hur den skulle fungera i produktion.
Projekttyper
Anpassad textklassificering stöder två typer av projekt
- Klassificering med en etikett – du kan tilldela en enskild klass för varje dokument i datauppsättningen. Ett filmskript kan till exempel bara klassificeras som "Romance" eller "Comedy".
- Klassificering med flera etiketter – du kan tilldela flera klasser för varje dokument i datauppsättningen. Ett filmmanus kan till exempel klassificeras som "Comedy" eller "Romance" och "Comedy".
Återkalla
Mäter modellens förmåga att förutsäga faktiska positiva klasser. Det är förhållandet mellan de förutsagda sanna positiva och vad som faktiskt taggades. Återkallningsmåttet visar hur många av de förutsagda klasserna som är korrekta.
Nästa steg
- Data- och tjänstbegränsningar.
- Översikt över anpassad textklassificering.