Träna dina anpassade Textanalys för hälsomodell
Träning är den process där modellen lär sig av dina märkta data. När träningen är klar kan du visa modellens prestanda för att avgöra om du behöver förbättra din modell.
Om du vill träna en modell startar du ett träningsjobb och endast slutförda jobb skapar en modell. Träningsjobb upphör att gälla efter sju dagar, vilket innebär att du inte kan hämta jobbinformationen efter den här tiden. Om ditt träningsjobb har slutförts och en modell har skapats påverkas inte modellen. Du kan bara ha ett träningsjobb i taget och du kan inte starta andra jobb i samma projekt.
Träningstiderna kan vara var som helst från några minuter när du hanterar få dokument, upp till flera timmar beroende på datamängdens storlek och schemats komplexitet.
Förutsättningar
- Ett projekt som har skapats med ett konfigurerat Azure Blob Storage-konto
- Textdata som har laddats upp till ditt lagringskonto .
- Etiketterade data
Mer information finns i livscykeln för projektutveckling.
Datadelning
Innan du påbörjar träningsprocessen delas märkta dokument i projektet in i en träningsuppsättning och en testuppsättning. Var och en av dem har olika funktioner. Träningsuppsättningen används för att träna modellen, det här är den uppsättning som modellen lär sig de märkta entiteterna från och vilka textintervall som ska extraheras som entiteter. Testuppsättningen är en blinduppsättning som inte introduceras i modellen under träningen utan endast under utvärderingen. När modellträningen har slutförts används modellen för att göra förutsägelser från dokumenten i testningen och baserat på dessa förutsägelser beräknas utvärderingsmått. Modellträning och utvärdering är endast för nyligen definierade entiteter med inlärda komponenter. Därför undantas Textanalys för hälsoentiteter från modellträning och utvärdering på grund av att de är entiteter med fördefinierade komponenter. Vi rekommenderar att du ser till att alla etiketterade entiteter är tillräckligt representerade i både tränings- och testuppsättningen.
Anpassade Textanalys för hälsa stöder två metoder för datadelning:
- Dela automatiskt upp testuppsättningen från träningsdata:Systemet delar upp dina märkta data mellan tränings- och testuppsättningarna enligt de procentandelar du väljer. Den rekommenderade procentuella uppdelningen är 80 % för träning och 20 % för testning.
Kommentar
Om du väljer alternativet Dela upp testuppsättningen automatiskt från träningsdata delas endast de data som tilldelats träningsuppsättningen upp enligt de procentsatser som anges.
- Använd en manuell uppdelning av tränings- och testdata: Med den här metoden kan användarna definiera vilka etiketterade dokument som ska tillhöra vilken uppsättning. Det här steget är bara aktiverat om du har lagt till dokument i testuppsättningen under dataetiketter.
Träna en modell
Så här börjar du träna din modell inifrån Language Studio:
Välj Träningsjobb på menyn till vänster.
Välj Starta ett träningsjobb på den översta menyn.
Välj Träna en ny modell och skriv in modellnamnet i textrutan. Du kan också skriva över en befintlig modell genom att välja det här alternativet och välja den modell som du vill skriva över från den nedrullningsbara menyn. Att skriva över en tränad modell är oåterkalleligt, men det påverkar inte dina distribuerade modeller förrän du distribuerar den nya modellen.
Välj datadelningsmetod. Du kan välja Att automatiskt dela upp testuppsättningen från träningsdata där systemet delar upp dina märkta data mellan tränings- och testuppsättningarna, enligt de angivna procentandelarna. Eller så kan du använda en manuell delning av tränings- och testdata. Det här alternativet är bara aktiverat om du har lagt till dokument i testuppsättningen. Se dataetiketter och hur du tränar en modell för information om datadelning.
Välj knappen Träna.
Om du väljer ID för träningsjobb i listan visas en sidoruta där du kan kontrollera träningsförloppet, jobbstatusen och annan information för det här jobbet.
Kommentar
- Endast slutförda träningsjobb genererar modeller.
- Träningen kan ta lite tid mellan ett par minuter och flera timmar baserat på storleken på dina märkta data.
- Du kan bara köra ett träningsjobb i taget. Du kan inte starta ett annat träningsjobb i samma projekt förrän det pågående jobbet har slutförts.
Avbryt träningsjobbet
Om du vill avbryta ett träningsjobb från Language Studio går du till sidan Träningsjobb . Välj det träningsjobb som du vill avbryta och välj Avbryt på den översta menyn.
Nästa steg
När träningen är klar kan du visa modellens prestanda för att eventuellt förbättra din modell om det behövs. När du är nöjd med din modell kan du distribuera den och göra den tillgänglig för att extrahera entiteter från text.