Tolka modellresultat i Machine Learning Studio (klassisk)
GÄLLER FÖR: Machine Learning Studio (klassisk) Azure Machine Learning
Viktigt!
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Det här avsnittet beskriver hur du visualiserar och tolkar förutsägelseresultat i Machine Learning Studio (klassisk). När du har tränat en modell och gjort förutsägelser ovanpå den ("poängsatt modellen" måste du förstå och tolka förutsägelseresultatet.
Det finns fyra stora typer av maskininlärningsmodeller i Machine Learning Studio (klassisk):
- Klassificering
- Klustring
- Regression
- Rekommenderade system
Modulerna som används för förutsägelse utöver dessa modeller är:
- Bedömningsmodellmodul för klassificering och regression
- Tilldela till klustermodul för klustring
- Poängmatchningsrekommendator för rekommendationssystem
Lär dig hur du väljer parametrar för att optimera dina algoritmer i ML Studio (klassisk).
Mer information om hur du utvärderar dina modeller finns i Utvärdera modellprestanda.
Om du är nybörjare på ML Studio (klassisk) kan du lära dig hur du skapar ett enkelt experiment.
Klassificering
Det finns två underkategorier av klassificeringsproblem:
- Problem med endast två klasser (två klasser eller binär klassificering)
- Problem med fler än två klasser (klassificering med flera klasser)
Machine Learning Studio (klassisk) har olika moduler för att hantera var och en av dessa typer av klassificeringar, men metoderna för att tolka deras förutsägelseresultat är liknande.
Klassificering med två klasser
Exempelexperiment
Ett exempel på ett klassificeringsproblem med två klasser är klassificeringen av irisblommor. Uppgiften är att klassificera irisblommor baserat på deras funktioner. Iris-datauppsättningen som tillhandahålls i Machine Learning Studio (klassisk) är en delmängd av den populära Iris-datauppsättningen som endast innehåller instanser av två blomarter (klasserna 0 och 1). Det finns fyra funktioner för varje blomma (sepallängd, sepalbredd, kronbladslängd och kronbladsbredd).
Figur 1. Iris-experiment med klassificeringsproblem med två klasser
Ett experiment har utförts för att lösa det här problemet, enligt bild 1. En tvåklass förbättrad beslutsträdsmodell har tränats och poängsatts. Nu kan du visualisera förutsägelseresultatet från modulen Poängsätta modell genom att klicka på utdataporten för modulen Poängsätta modell och sedan klicka på Visualisera.
Då visas bedömningsresultaten enligt bild 2.
Figur 2. Visualisera ett poängmodellresultat i klassificering med två klasser
Resultattolkning
Det finns sex kolumner i resultattabellen. De fyra vänstra kolumnerna är de fyra funktionerna. De två kolumnerna, Poängsatta etiketter och Poängsatta sannolikheter, är förutsägelseresultatet. Kolumnen Poängsatta sannolikheter visar sannolikheten att en blomma tillhör den positiva klassen (klass 1). Till exempel innebär det första talet i kolumnen (0,028571) att det finns 0,028571 sannolikhet att den första blomman tillhör klass 1. Kolumnen Poängsatta etiketter visar den förutsagda klassen för varje blomma. Detta baseras på kolumnen Poängsatta sannolikheter. Om den poängsatta sannolikheten för en blomma är större än 0,5 förutsägs den som klass 1. Annars förutsägs det som klass 0.
Webbtjänstpublikation
När förutsägelseresultaten har förståtts och bedömts som ljud kan experimentet publiceras som en webbtjänst så att du kan distribuera det i olika program och anropa det för att få klassförutsägelser på alla nya irisblommor. Information om hur du ändrar ett träningsexperiment till ett bedömningsexperiment och publicerar det som en webbtjänst finns i Självstudie 3: Distribuera kreditriskmodell. Den här proceduren ger dig ett bedömningsexperiment som visas i bild 3.
Figur 3. Bedömning av iris-experimentet med klassificeringsproblem med två klasser
Nu måste du ange indata och utdata för webbtjänsten. Indata är rätt indataport för Poängmodell, som är indata för Iris-blomfunktioner. Valet av utdata beror på om du är intresserad av den förutsagda klassen (poängsatt etikett), den poängsatta sannolikheten eller båda. I det här exemplet antas det att du är intresserad av båda. Om du vill välja önskade utdatakolumner använder du modulen Välj kolumner i datauppsättning . Klicka på Välj kolumner i datauppsättning, klicka på Starta kolumnväljare och välj Poängsatta etiketter och Poängsatta sannolikheter. När du har angett utdataporten för Välj kolumner i datauppsättningen och kört den igen bör du vara redo att publicera bedömningsexperimentet som en webbtjänst genom att klicka på PUBLICERA WEBBTJÄNST. Det sista experimentet ser ut som bild 4.
Figur 4. Slutbedömningsexperiment av ett klassificeringsproblem med två klasser i iris
När du har kört webbtjänsten och angett några funktionsvärden för en testinstans returnerar resultatet två tal. Det första talet är den poängsatta etiketten och den andra är den poängsatta sannolikheten. Denna blomma förutsägs som klass 1 med sannolikheten 0,9655.
Figur 5. Webbtjänstresultat av iris-klassificering med två klasser
Klassificering med flera klasser
Exempelexperiment
I det här experimentet utför du en uppgift för brevigenkänning som ett exempel på klassificering i flera klasser. Klassificeraren försöker förutsäga en viss bokstav %28class%29 baserat på vissa handskrivna attributvärden som extraherats från de handskrivna bilderna.
I träningsdata finns det 16 funktioner som extraherats från handskrivna brevbilder. De 26 bokstäverna bildar våra 26 klasser. Bild 6 visar ett experiment som tränar en klassificeringsmodell med flera klasser för bokstavsigenkänning och som förutsäger samma funktionsuppsättning i en testdatauppsättning.
Figur 6. Problemexperiment för flerklasssklassificering för brevigenkänning
Om du visualiserar resultatet från modulen Poängsätta modell genom att klicka på utdataporten för modulen Poängsätta modell och sedan klicka på Visualisera bör du se innehåll enligt bild 7.
Figur 7. Visualisera poängmodellresultat i en klassificering med flera klasser
Resultattolkning
De 16 vänstra kolumnerna representerar funktionsvärdena för testuppsättningen. Kolumnerna med namn som Poängsatta sannolikheter för klass "XX" är precis som kolumnen Poängsatta sannolikheter i fallet med två klasser. De visar sannolikheten att motsvarande post hamnar i en viss klass. För den första posten är det till exempel 0,003571 sannolikhet att det är "A", 0,000451 sannolikhet att det är ett "B" och så vidare. Den sista kolumnen (Poängsatta etiketter) är samma som Poängsatta etiketter i fallet med två klasser. Den väljer klassen med den största poängsatta sannolikheten som den förväntade klassen för motsvarande post. För den första posten är till exempel den poängsatta etiketten "F" eftersom den har störst sannolikhet att vara "F" (0,916995).
Webbtjänstpublikation
Du kan också få den poängsatta etiketten för varje post och sannolikheten för den poängsatta etiketten. Den grundläggande logiken är att hitta den största sannolikheten bland alla poängsatta sannolikheter. För att göra detta måste du använda modulen Execute R Script (Kör R-skript ). R-koden visas i bild 8 och resultatet av experimentet visas i bild 9.
Figur 8. R-kod för att extrahera poängsatta etiketter och tillhörande sannolikheter för etiketterna
Figur 9. Slutbedömningsexperiment för klassificeringsproblemet med flerklasssklassificering för bokstavsigenkänning
När du har publicerat och kört webbtjänsten och angett några indatafunktionsvärden ser det returnerade resultatet ut som bild 10. Det här handskrivna brevet, med dess extraherade 16 funktioner, förväntas vara ett "T" med sannolikheten 0,9715.
Figur 10. Webbtjänstresultat för klassificering med flera klasser
Regression
Regressionsproblem skiljer sig från klassificeringsproblem. I ett klassificeringsproblem försöker du förutsäga diskreta klasser, till exempel vilken klass en irisblomma tillhör. Men som du kan se i följande exempel på ett regressionsproblem försöker du förutsäga en kontinuerlig variabel, till exempel priset på en bil.
Exempelexperiment
Använd förutsägelse av bilpriser som exempel för regression. Du försöker förutsäga priset på en bil baserat på dess funktioner, inklusive märke, bränsletyp, kroppstyp och drivhjul. Experimentet visas i bild 11.
Figur 11. Experiment med problem med regression av bilpriser
Om du visualiserar modulen Poängmodell ser resultatet ut som bild 12.
Bild 12. Bedömningsresultat för problemet med förutsägelse av bilpriser
Resultattolkning
Poängsatta etiketter är resultatkolumnen i det här poängresultatet. Siffrorna är det förväntade priset för varje bil.
Webbtjänstpublikation
Du kan publicera regressionsexperimentet i en webbtjänst och anropa det för förutsägelse av bilpriser på samma sätt som i användningsfallet för klassificering med två klasser.
Bild 13. Bedömningsexperiment för ett problem med regression av bilpriser
När webbtjänsten körs ser det returnerade resultatet ut som bild 14. Det förväntade priset för den här bilen är $ 15,085.52.
Bild 14. Webbtjänstresultat av problem med regression av bilpriser
Klustring
Exempelexperiment
Nu ska vi använda Iris-datauppsättningen igen för att skapa ett klustringsexperiment. Här kan du filtrera bort klassetiketterna i datauppsättningen så att den bara har funktioner och kan användas för klustring. I det här iris-användningsfallet anger du antalet kluster som ska vara två under träningsprocessen, vilket innebär att du grupperar blommorna i två klasser. Experimentet visas i bild 15.
Bild 15. Problemexperiment för Iris-klustring
Klustring skiljer sig från klassificering eftersom träningsdatauppsättningen inte har mark-sanningsetiketter på egen hand. Klustring grupperar instanserna av träningsdatauppsättningen i distinkta kluster. Under träningsprocessen etiketterar modellen posterna genom att lära sig skillnaderna mellan deras funktioner. Därefter kan den tränade modellen användas för att ytterligare klassificera framtida poster. Det finns två delar av resultatet som vi är intresserade av i ett klusterproblem. Den första delen är att märka träningsdatauppsättningen och den andra är att klassificera en ny datauppsättning med den tränade modellen.
Den första delen av resultatet kan visualiseras genom att klicka på den vänstra utdataporten för Train Clustering Model och sedan klicka på Visualisera. Visualiseringen visas i bild 16.
Bild 16. Visualisera klustringsresultat för träningsdatauppsättningen
Resultatet av den andra delen, klustring av nya poster med den tränade klustringsmodellen, visas i bild 17.
Bild 17. Visualisera klustringsresultat på en ny datauppsättning
Resultattolkning
Även om resultatet av de två delarna härrör från olika experimentfaser ser de likadana ut och tolkas på samma sätt. De första fyra kolumnerna är funktioner. Den sista kolumnen, Tilldelningar, är förutsägelseresultatet. De poster som tilldelats samma nummer förutsägs finnas i samma kluster, dvs. de delar likheter på något sätt (det här experimentet använder standardmåttet euklidiska avstånd). Eftersom du har angett att antalet kluster ska vara 2, är posterna i Tilldelningar märkta antingen 0 eller 1.
Webbtjänstpublikation
Du kan publicera klustringsexperimentet i en webbtjänst och anropa det för klustringsförutsägelser på samma sätt som i användningsfallet med två klasser.
Bild 18. Bedömningsexperiment av ett problem med iris-klustring
När du har kört webbtjänsten ser det returnerade resultatet ut som bild 19. Den här blomman förväntas finnas i kluster 0.
Bild 19. Webbtjänstresultat av iris-klassificering med två klasser
Rekommenderande system
Exempelexperiment
För rekommenderade system kan du använda problemet med restaurangrekommendationer som ett exempel: du kan rekommendera restauranger för kunder baserat på deras betygshistorik. Indata består av tre delar:
- Restaurangbetyg från kunder
- Kundfunktionsdata
- Restaurangens funktionsdata
Det finns flera saker vi kan göra med modulen Train Matchbox Recommender i Machine Learning Studio (klassisk):
- Förutsäga klassificeringar för en viss användare och ett visst objekt
- Rekommendera objekt till en viss användare
- Hitta användare som är relaterade till en viss användare
- Hitta objekt som är relaterade till ett visst objekt
Du kan välja vad du vill göra genom att välja bland de fyra alternativen på menyn Rekommenderad förutsägelsetyp . Här kan du gå igenom alla fyra scenarierna.
Ett typiskt Machine Learning Studio-experiment (klassiskt) för ett rekommenderande system ser ut som bild 20. Information om hur du använder dessa systemmoduler för rekommenderare finns i Train matchbox recommender and Score matchbox recommender (Träna matchbox-rekommendationer och Poängmatchningsbox-rekommendationer).
Bild 20. Systemexperiment för rekommenderare
Resultattolkning
Förutsäga klassificeringar för en viss användare och ett visst objekt
Genom att välja Omdömesförutsägelse under Förutsägelsetyp för rekommenderare ber du rekommendationssystemet att förutsäga klassificeringen för en viss användare och ett visst objekt. Visualiseringen av resultatmatchningsrutans rekommendationsutdata ser ut som bild 21.
Bild 21. Visualisera poängresultatet för rekommendationssystemet – förutsägelse för klassificering
De första två kolumnerna är de användarobjektpar som tillhandahålls av indata. Den tredje kolumnen är en användares förutsagda klassificering för ett visst objekt. På den första raden förutsägs till exempel kunden U1048 betygsätta restaurang 135026 som 2.
Rekommendera objekt till en viss användare
Genom att välja Objektrekommendering under Förutsägelsetyp för rekommenderare ber du rekommendationssystemet att rekommendera objekt till en viss användare. Den sista parametern som ska väljas i det här scenariot är Val av rekommenderat objekt. Alternativet Från klassificerade objekt (för modellutvärdering) är främst för modellutvärdering under träningsprocessen. I det här förutsägelsesteget väljer vi Från alla objekt. Visualiseringen av resultatmatchningsrutans rekommendationsutdata ser ut som bild 22.
Bild 22. Visualisera poängresultatet för rekommendationssystemet – rekommendation för objekt
Den första av de sex kolumnerna representerar de angivna användar-ID:t som ska rekommenderas för, enligt indata. De övriga fem kolumnerna representerar de objekt som rekommenderas för användaren i fallande relevansordning. På den första raden är till exempel den mest rekommenderade restaurangen för kunden U1048 134986, följt av 135018, 134975, 135021 och 132862.
Hitta användare som är relaterade till en viss användare
Genom att välja Relaterade användare under Rekommenderarens förutsägelsetyp ber du rekommendationssystemet att hitta relaterade användare till en viss användare. Relaterade användare är de användare som har liknande inställningar. Den sista parametern som ska väljas i det här scenariot är Val av relaterad användare. Alternativet Från användare som klassificerade objekt (för modellutvärdering) är främst för modellutvärdering under träningsprocessen. Välj Från alla användare för det här förutsägelsesteget. Visualiseringen av resultatmatchningsrutans rekommendationsutdata ser ut som bild 23.
Bild 23. Visualisera resultat för rekommenderarens systemrelaterade användare
Den första av de sex kolumnerna visar de angivna användar-ID:t som behövs för att hitta relaterade användare, enligt indata. De övriga fem kolumnerna lagrar de förutsagda relaterade användarna av användaren i fallande relevansordning. På den första raden är till exempel den mest relevanta kunden för kunden U1048 U1051, följt av U1066, U1044, U1017 och U1072.
Hitta objekt som är relaterade till ett visst objekt
Genom att välja Relaterade objekt under Förutsägelsetyp för rekommenderare ber du rekommendationssystemet att hitta relaterade objekt till ett visst objekt. Relaterade objekt är de objekt som mest sannolikt kommer att gillas av samma användare. Den sista parametern som ska väljas i det här scenariot är Val av relaterat objekt. Alternativet Från klassificerade objekt (för modellutvärdering) är främst för modellutvärdering under träningsprocessen. Vi väljer Från alla objekt för det här förutsägelsesteget. Visualiseringen av resultatmatchningsrutans rekommendationsutdata ser ut som bild 24.
Bild 24. Visualisera poängresultat för rekommenderarens systemrelaterade objekt
Den första av de sex kolumnerna representerar de angivna objekt-ID:t som behövs för att hitta relaterade objekt, enligt indata. De övriga fem kolumnerna lagrar de förutsagda relaterade objekten i fallande ordning när det gäller relevans. På den första raden är till exempel det mest relevanta objektet för objektet 135026 135074 följt av 135035, 132875, 135055 och 134992.
Webbtjänstpublikation
Processen att publicera dessa experiment som webbtjänster för att få förutsägelser är liknande för var och en av de fyra scenarierna. Här tar vi det andra scenariot (rekommenderar objekt till en viss användare) som exempel. Du kan följa samma procedur med de andra tre.
Om du sparar det tränade rekommendationssystemet som en tränad modell och filtrerar indata till en enda användar-ID-kolumn på begäran, kan du ansluta experimentet som i bild 25 och publicera det som en webbtjänst.
Bild 25. Bedömningsexperiment av problemet med restaurangrekommendations
När webbtjänsten körs ser det returnerade resultatet ut som bild 26. De fem rekommenderade restaurangerna för användaren U1048 är 134986, 135018, 134975, 135021 och 132862.
Bild 26. Webbtjänstresultat av problem med restaurangrekommendering