Dela via


Vanliga frågor och svar om anpassad namngiven entitetsigenkänning

Hitta svar på vanliga frågor om begrepp och scenarier som rör anpassad NER i Azure AI Language.

Hur gör jag för att komma igång med tjänsten?

Se snabbstarten för att snabbt skapa ditt första projekt eller visa hur du skapar projekt för mer detaljerad information.

Vilka gränser har tjänsten?

Mer information finns i artikeln om tjänstbegränsningar.

Hur många taggade filer behövs?

I allmänhet leder olika och representativa taggade data till bättre resultat, med tanke på att taggningen görs exakt, konsekvent och fullständigt. Det finns inget angivet antal taggade instanser som gör att varje modell fungerar bra. Prestanda som är mycket beroende av ditt schema och tvetydigheten i schemat. Tvetydiga entitetstyper behöver fler taggar. Prestanda beror också på kvaliteten på taggningen. Det rekommenderade antalet taggade instanser per entitet är 50.

Träningen tar lång tid, är detta förväntat?

Träningsprocessen kan ta lång tid. Som en grov uppskattning är den förväntade träningstiden för filer med en sammanlagd längd på 12 800 000 tecken 6 timmar.

Hur gör jag för att skapa min anpassade modell programmatiskt?

Kommentar

För närvarande kan du bara skapa en modell med hjälp av REST-API:et eller Language Studio.

Du kan använda REST-API:erna för att skapa dina anpassade modeller. Följ den här snabbstarten för att komma igång med att skapa ett projekt och skapa en modell via API:er för exempel på hur du anropar redigerings-API:et.

När du är redo att börja använda din modell för att göra förutsägelser kan du använda REST-API:et eller klientbiblioteket.

Du kan träna flera modeller på samma datauppsättning i samma projekt. När du har tränat din modell kan du visa dess prestanda. Du kan distribuera och testa din modell i Language Studio. Du kan lägga till eller ta bort etiketter från dina data och träna en ny modell och testa den också. Visa tjänstbegränsningarför att lära dig mer om maximalt antal tränade modeller med samma projekt. När du tränar en modell kan du avgöra hur din datamängd delas upp i tränings- och testuppsättningar. Du kan också dela upp dina data slumpmässigt i tränings- och testuppsättningar där det inte finns någon garanti för att den reflekterade modellutvärderingen är ungefär samma testuppsättning och resultaten inte är jämförbara. Vi rekommenderar att du utvecklar en egen testuppsättning och använder den för att utvärdera båda modellerna så att du kan mäta förbättringar.

Garanterar en låg eller hög modellpoäng dåliga eller bra prestanda i produktionen?

Modellutvärderingen kanske inte alltid är omfattande. Detta beror på:

  • Om testuppsättningen är för liten så att de goda/dåliga poängen inte är representativa för modellens faktiska prestanda. Även om en viss entitetstyp saknas eller underrepresenteras i testuppsättningen påverkar den modellens prestanda.
  • Datadiversitet om dina data bara omfattar några scenarier/exempel på den text som du förväntar dig i produktion, kommer din modell inte att exponeras för alla möjliga scenarier och kan fungera dåligt i de scenarier som den inte har tränats på.
  • Datarepresentation om den datauppsättning som används för att träna modellen inte är representativ för de data som skulle introduceras för modellen i produktion, påverkas modellens prestanda avsevärt.

Mer information finns i artikeln om dataval och schemadesign .

Hur gör jag för att förbättra modellprestandan?

  • Visa modellförvirringsmatrisen. Om du märker att en viss entitetstyp ofta inte förutsägs korrekt kan du överväga att lägga till fler taggade instanser för den här klassen. Om du märker att två entitetstyper ofta förutsägs som varandra innebär det att schemat är tvetydigt och du bör överväga att slå samman dem båda till en entitetstyp för bättre prestanda.

  • Granska förutsägelser för testuppsättningar. Om en av entitetstyperna har många fler taggade instanser än de andra kan din modell vara partisk mot den här typen. Lägg till mer data i de andra entitetstyperna eller ta bort exempel från den dominerande typen.

  • Läs mer om dataurval och schemadesign.

  • Granska testuppsättningen för att se förutsagda och taggade entiteter sida vid sida så att du kan få en bättre uppfattning om modellens prestanda och avgöra om det behövs några ändringar i schemat eller taggarna.

Varför får jag olika resultat när jag tränar om min modell?

  • När du tränar din modell kan du avgöra om du vill att dina data ska delas upp slumpmässigt i tränings- och testuppsättningar. Om du gör det finns det därför ingen garanti för att den reflekterade modellutvärderingen finns på samma testuppsättning, så resultaten är inte jämförbara.

  • Om du tränar om samma modell blir testuppsättningen densamma, men du kanske märker en liten ändring i förutsägelserna från modellen. Det beror på att den tränade modellen inte är tillräckligt robust och detta är en faktor för hur representativa och distinkta dina data är och kvaliteten på dina taggade data.

Hur gör jag för att få förutsägelser på olika språk?

Först måste du aktivera det flerspråkiga alternativet när du skapar projektet , eller så kan du aktivera det senare från sidan projektinställningar. När du har tränat och distribuerat din modell kan du börja fråga den på flera språk. Du kan få olika resultat för olika språk. För att förbättra noggrannheten för alla språk lägger du till fler taggade instanser i projektet på det språket för att introducera den tränade modellen till mer syntax för det språket.

Jag har tränat min modell, men jag kan inte testa den

Du måste distribuera din modell innan du kan testa den.

Hur gör jag för att använda min tränade modell för förutsägelser?

När du har distribuerat din modell anropar du förutsägelse-API:et med hjälp av antingen REST-API:et eller klientbiblioteken.

Datasekretess och säkerhet

Custom NER är en databehandlare för GDPR-ändamål (General Data Protection Regulation). I enlighet med GDPR-principer har anpassade NER-användare fullständig kontroll för att visa, exportera eller ta bort användarinnehåll antingen via Language Studio eller programmatiskt med hjälp av REST-API:er.

Dina data lagras bara i ditt Azure Storage-konto. Anpassad NER har bara åtkomst till läsning från den under träningen.

Hur klonar jag mitt projekt?

Om du vill klona projektet måste du använda export-API:et för att exportera projekttillgångarna och sedan importera dem till ett nytt projekt. Se REST API-referensen för båda åtgärderna.

Nästa steg