Modelresultaten interpreteren in Machine Learning Studio (klassiek)

Artikel
11/29/2017

VAN TOEPASSING OP: Dit is een vinkje, wat betekent dat dit artikel van toepassing is op Machine Learning Studio (klassiek). Machine Learning Studio (klassiek) Dit is een X, wat betekent dat dit artikel niet van toepassing is op Azure Machine Learning. Azure Machine Learning

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen van machine learning-projecten van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

In dit onderwerp wordt uitgelegd hoe u voorspellingsresultaten kunt visualiseren en interpreteren in Machine Learning Studio (klassiek). Nadat u een model hebt getraind en er bovenop voorspellingen hebt gedaan ('het model beoordeeld'), moet u het voorspellingsresultaat begrijpen en interpreteren.

Er zijn vier belangrijke soorten machine learning-modellen in Machine Learning Studio (klassiek):

Classificatie
Clustering
Regressie
Aanbevelingssystemen

De modules die worden gebruikt voor voorspelling boven op deze modellen zijn:

Score Model-module voor classificatie en regressie
Toewijzen aan clustersmodule voor clustering
Score Matchbox Recommender voor aanbevelingssystemen

Meer informatie over het kiezen van parameters voor het optimaliseren van uw algoritmen in ML Studio (klassiek).

Zie Modelprestaties evalueren voor meer informatie over het evalueren van uw modellen.

Als u geen ervaring hebt met ML Studio (klassiek), leert u hoe u een eenvoudig experiment maakt.

Classificatie

Er zijn twee subcategorieën van classificatieproblemen:

Problemen met slechts twee klassen (twee klassen of binaire classificatie)
Problemen met meer dan twee klassen (classificatie met meerdere klassen)

Machine Learning Studio (klassiek) heeft verschillende modules voor elk van deze typen classificaties, maar de methoden voor het interpreteren van hun voorspellingsresultaten zijn vergelijkbaar.

Classificatie van twee klassen

Voorbeeldexperiment

Een voorbeeld van een classificatieprobleem met twee klassen is de classificatie van irisbloemen. De taak is om irisbloemen te classificeren op basis van hun kenmerken. De Iris-gegevensset in Machine Learning Studio (klassiek) is een subset van de populaire Iris-gegevensset met slechts twee bloemsoorten (klassen 0 en 1). Er zijn vier kenmerken voor elke bloem (sepal length, sepal width, petal length, and petal width).

Schermopname van irisexperiment

Figuur 1. Probleemexperiment iris met twee klassenclassificatie

Er is een experiment uitgevoerd om dit probleem op te lossen, zoals wordt weergegeven in afbeelding 1. Er is een model met twee klassen versterkte beslissingsstructuur getraind en gescoord. U kunt nu de voorspellingsresultaten van de module Score Model visualiseren door op de uitvoerpoort van de module Score Model te klikken en vervolgens op Visualiseren te klikken.

Score model module

Hiermee worden de scoreresultaten weergegeven, zoals weergegeven in afbeelding 2.

Resultaten van het irisclassificatieexperiment met twee klassen

Figuur 2. Een scoremodelresultaat visualiseren in classificatie van twee klassen

Resultaatinterpretatie

De resultatentabel bevat zes kolommen. De vier linkerkolommen zijn de vier functies. De twee rechterkolommen, Scored Labels en Scored Probabilities, zijn de voorspellingsresultaten. In de kolom Scored Probabilities wordt de kans weergegeven dat een bloem deel uitmaakt van de positieve klasse (klasse 1). Het eerste getal in de kolom (0,028571) betekent bijvoorbeeld dat er 0,028571 kans is dat de eerste bloem deel uitmaakt van klasse 1. In de kolom Scored Labels wordt de voorspelde klasse voor elke bloem weergegeven. Dit is gebaseerd op de kolom Gescoorde waarschijnlijkheden. Als de score van een bloem groter is dan 0,5, wordt deze voorspeld als klasse 1. Anders wordt deze voorspeld als klasse 0.

Webservicepublicatie

Nadat de voorspellingsresultaten zijn begrepen en beoordeeld, kan het experiment worden gepubliceerd als een webservice, zodat u het in verschillende toepassingen kunt implementeren en kunt aanroepen om klassevoorspellingen te verkrijgen voor elke nieuwe irisbloem. Zie zelfstudie 3: Kredietrisicomodel implementeren voor meer informatie over het wijzigen van een trainingsexperiment in een score-experiment en het publiceren als een webservice. Deze procedure biedt u een score-experiment, zoals wordt weergegeven in afbeelding 3.

Schermopname van score-experiment

Figuur 3. Scoren van het probleemexperiment met twee klassen classificatie van iris

Nu moet u de invoer en uitvoer voor de webservice instellen. De invoer is de juiste invoerpoort van Score Model. Dit is de Iris-bloem die invoer bevat. De keuze van de uitvoer is afhankelijk van of u geïnteresseerd bent in de voorspelde klasse (scored label), de gescoorde waarschijnlijkheid of beide. In dit voorbeeld wordt ervan uitgegaan dat u geïnteresseerd bent in beide. Als u de gewenste uitvoerkolommen wilt selecteren, gebruikt u een module Kolommen selecteren in gegevensset . Klik op Kolommen selecteren in gegevensset, klik op Kolomkiezer starten en selecteer Scored Labels en Scored Waarschijnlijkheden. Nadat u de uitvoerpoort van select columns in de gegevensset hebt ingesteld en opnieuw hebt uitgevoerd, kunt u het score-experiment publiceren als een webservice door op PUBLISH WEB SERVICE te klikken. Het laatste experiment ziet eruit als afbeelding 4.

Het irisclassificatieexperiment met twee klassen

Figuur 4. Laatste score-experiment van een classificatieprobleem met twee klassen iris

Nadat u de webservice hebt uitgevoerd en een aantal functiewaarden van een testexemplaren hebt ingevoerd, retourneert het resultaat twee getallen. Het eerste getal is het gescoorde label en de tweede is de gescoorde waarschijnlijkheid. Deze bloem wordt voorspeld als klasse 1 met 0,9655 kans.

Het interpreteren van scoremodel testen

Testresultaten scoren

Figuur 5. Webserviceresultaat van classificatie van iris met twee klassen

Classificatie in meerdere klassen

Voorbeeldexperiment

In dit experiment voert u een letterherkenningstaak uit als voorbeeld van classificatie met meerdere klassen. De classificatie probeert een bepaalde letter %28class%29 te voorspellen op basis van enkele handgeschreven kenmerkwaarden die zijn geëxtraheerd uit de handgeschreven afbeeldingen.

Voorbeeld van letterherkenning

In de trainingsgegevens zijn er 16 functies geëxtraheerd uit handgeschreven briefafbeeldingen. De 26 brieven vormen onze 26 klassen. Afbeelding 6 toont een experiment dat een classificatiemodel met meerdere klassen traint voor letterherkenning en voorspelt op dezelfde functieset in een testgegevensset.

Experiment voor classificatie van meerdere klassen letterherkenning

Figuur 6. Probleemexperiment met classificatie van meerdere klassen letterherkenning

Het visualiseren van de resultaten van de module Score Model door op de uitvoerpoort van de module Score Model te klikken en vervolgens op Visualize te klikken, ziet u inhoud zoals weergegeven in afbeelding 7.

Modelresultaten beoordelen

Afbeelding 7. Scoremodelresultaten visualiseren in een classificatie met meerdere klassen

Resultaatinterpretatie

De linker 16 kolommen vertegenwoordigen de functiewaarden van de testset. De kolommen met namen zoals Scored Probabilities voor klasse XX zijn net als de kolom Scored Probabilities in het geval van twee klassen. Ze tonen de waarschijnlijkheid dat de bijbehorende vermelding in een bepaalde klasse valt. Voor het eerste item is er bijvoorbeeld een kans van 0,003571 dat het een A is, 0,000451 kans dat het een 'B' is, enzovoort. De laatste kolom (Scored Labels) is hetzelfde als Scored Labels in het geval van twee klassen. Hiermee selecteert u de klasse met de grootste score waarschijnlijkheid als de voorspelde klasse van de bijbehorende vermelding. Voor het eerste item is het scored label bijvoorbeeld 'F' omdat het de grootste kans heeft om een 'F' (0,916995) te zijn.

Webservicepublicatie

U kunt ook het scored label krijgen voor elke vermelding en de waarschijnlijkheid van het scored label. De basislogica is het vinden van de grootste waarschijnlijkheid tussen alle gescoorde waarschijnlijkheden. Hiervoor moet u de module Execute R Script gebruiken. De R-code wordt weergegeven in afbeelding 8 en het resultaat van het experiment wordt weergegeven in afbeelding 9.

Voorbeeld van R-code

Afbeelding 8. R-code voor het extraheren van scored labels en de bijbehorende waarschijnlijkheden van de labels

Experimentresultaat

Afbeelding 9. Laatste score-experiment van het probleem met classificatie van meerdere klassen voor letterherkenning

Nadat u de webservice hebt gepubliceerd en uitgevoerd en enkele invoerfunctiewaarden hebt ingevoerd, ziet het geretourneerde resultaat eruit als afbeelding 10. Deze handgeschreven brief, met de geëxtraheerde 16 kenmerken, wordt voorspeld een "T" met 0,9715 waarschijnlijkheid te zijn.

Test de module voor het interpreteren van score

Testresultaat

Afbeelding 10. Webserviceresultaat van classificatie met meerdere klassen

Regressie

Regressieproblemen verschillen van classificatieproblemen. In een classificatieprobleem probeert u discrete klassen te voorspellen, zoals tot welke klasse een irisbloem behoort. Maar zoals u kunt zien in het volgende voorbeeld van een regressieprobleem, probeert u een continue variabele te voorspellen, zoals de prijs van een auto.

Voorbeeldexperiment

Gebruik autoprijsvoorspelling als voorbeeld voor regressie. U probeert de prijs van een auto te voorspellen op basis van zijn kenmerken, waaronder merk, brandstoftype, type lichaam en aandrijfwiel. Het experiment wordt weergegeven in afbeelding 11.

Autoprijsregressieexperiment

Afbeelding 11. Probleemexperiment autoprijsregressie

Als u de module Score Model visualiseert, ziet het resultaat eruit als afbeelding 12.

Scoreresultaten voor probleem met prijsvoorspelling van auto's

Afbeelding 12. Scoreresultaat voor het probleem met de prijsvoorspelling van auto's

Resultaatinterpretatie

Scored Labels is de resultaatkolom in dit scoreresultaat. De getallen zijn de voorspelde prijs voor elke auto.

Webservicepublicatie

U kunt het regressieexperiment publiceren in een webservice en deze aanroepen voor autoprijsvoorspelling op dezelfde manier als in het gebruiksscenario voor twee klassenclassificatie.

Score-experiment voor probleem met regressie van autoprijzen

Afbeelding 13. Score-experiment van een probleem met regressie van autoprijzen

Als u de webservice uitvoert, ziet het geretourneerde resultaat eruit als afbeelding 14. De voorspelde prijs voor deze auto is $ 15.085,52.

Scoremodule interpreteren testen

Resultaten van scoremodule

Afbeelding 14. Webserviceresultaat van een probleem met regressie van autoprijzen

Clustering

Voorbeeldexperiment

We gaan de Iris-gegevensset opnieuw gebruiken om een clusteringexperiment te bouwen. Hier kunt u de klasselabels in de gegevensset filteren, zodat deze alleen functies heeft en kan worden gebruikt voor clustering. Geef in dit irisgebruiksscenario het aantal clusters op dat twee moeten zijn tijdens het trainingsproces, wat betekent dat u de bloemen in twee klassen zou clusteren. Het experiment wordt weergegeven in afbeelding 15.

Probleemexperiment irisclustering

Afbeelding 15. Probleemexperiment irisclustering

Clustering verschilt van classificatie omdat de set met trainingsgegevens zelf geen basiswaarlabels heeft. Clustering groepeert de instanties van de trainingsgegevensset in afzonderlijke clusters. Tijdens het trainingsproces labelt het model de vermeldingen door de verschillen tussen hun functies te leren. Daarna kan het getrainde model worden gebruikt om toekomstige vermeldingen verder te classificeren. Er zijn twee delen van het resultaat waarin we geïnteresseerd zijn in een clusteringprobleem. Het eerste deel is het labelen van de trainingsgegevensset en de tweede classificeert een nieuwe gegevensset met het getrainde model.

Het eerste deel van het resultaat kan worden gevisualiseerd door te klikken op de linkeruitvoerpoort van Train Clustering Model en vervolgens op Visualize te klikken. De visualisatie wordt weergegeven in afbeelding 16.

Clusteringresultaat

Afbeelding 16. Clusteringresultaat visualiseren voor de trainingsgegevensset

Het resultaat van het tweede deel, het clusteren van nieuwe vermeldingen met het getrainde clusteringmodel, wordt weergegeven in afbeelding 17.

Clusteringresultaat visualiseren

Afbeelding 17. Clusteringresultaat visualiseren op een nieuwe gegevensset

Resultaatinterpretatie

Hoewel de resultaten van de twee delen afkomstig zijn van verschillende experimentfasen, zien ze er hetzelfde uit en worden ze op dezelfde manier geïnterpreteerd. De eerste vier kolommen zijn functies. De laatste kolom, Toewijzingen, is het voorspellingsresultaat. De vermeldingen die aan hetzelfde getal zijn toegewezen, worden voorspeld dat ze zich in hetzelfde cluster bevinden, dat wil zeggen dat ze overeenkomsten op een bepaalde manier delen (dit experiment maakt gebruik van de standaard metrische gegevens voor Euclidean afstand). Omdat u het aantal clusters hebt opgegeven dat 2 is, worden de vermeldingen in toewijzingen gelabeld als 0 of 1.

Webservicepublicatie

U kunt het clusteringexperiment publiceren in een webservice en deze aanroepen voor clustervoorspellingen op dezelfde manier als in het gebruiksscenario voor classificatie in twee klassen.

Score-experiment voor probleem met irisclustering

Afbeelding 18. Score-experiment van een probleem met irisclustering

Nadat u de webservice hebt uitgevoerd, ziet het geretourneerde resultaat eruit als afbeelding 19. Deze bloem wordt voorspeld in cluster 0.

Scoremodule testen

Resultaat scoremodule

Afbeelding 19. Webserviceresultaat van classificatie van iris met twee klassen

Aanbevelingssysteem

Voorbeeldexperiment

Voor aanbevelingssystemen kunt u het probleem met restaurantaanbeveling gebruiken als voorbeeld: u kunt restaurants aanbevelen voor klanten op basis van hun beoordelingsgeschiedenis. De invoergegevens bestaan uit drie delen:

Restaurantbeoordelingen van klanten
Gegevens van klantfuncties
Gegevens over restaurantkenmerken

Er zijn verschillende dingen die we kunnen doen met de module Train Matchbox Recommender in Machine Learning Studio (klassiek):

Classificaties voorspellen voor een bepaalde gebruiker en een bepaald item
Items aanbevelen aan een bepaalde gebruiker
Gebruikers zoeken met betrekking tot een bepaalde gebruiker
Items zoeken die betrekking hebben op een bepaald item

U kunt kiezen wat u wilt doen door een keuze te maken uit de vier opties in het menu Type aanbevelingsvoorspelling. Hier kunt u alle vier de scenario's doorlopen.

Matchbox-aanbeveling

Een typisch Machine Learning Studio-experiment (klassiek) voor een aanbevelingssysteem ziet eruit als afbeelding 20. Zie Voor meer informatie over het gebruik van deze aanbevelingssysteemmodules Train matchbox recommender en Score matchbox recommender.

Systeemexperiment aanbevelen

Afbeelding 20. Systeemexperiment aanbevelen

Resultaatinterpretatie

Classificaties voorspellen voor een bepaalde gebruiker en een bepaald item

Door beoordelingsvoorspelling te selecteren onder Type aanbevelingsvoorspelling, vraagt u het aanbevelingssysteem om de beoordeling voor een bepaalde gebruiker en een bepaald item te voorspellen. De visualisatie van de uitvoer score Matchbox Recommender ziet eruit als afbeelding 21.

Scoreresultaat van het aanbevelingssysteem - beoordelingsvoorspelling

Afbeelding 21. Visualiseer het scoreresultaat van de aanbevelingssysteemvoorspelling

De eerste twee kolommen zijn de gebruikersitemparen die worden geleverd door de invoergegevens. De derde kolom is de voorspelde waardering van een gebruiker voor een bepaald item. In de eerste rij wordt klant U1048 bijvoorbeeld voorspeld om restaurant-135026 te beoordelen als 2.

Items aanbevelen aan een bepaalde gebruiker

Als u Itemaanbeveling selecteert onder Type aanbevelingsvoorspelling, vraagt u het aanbevelingssysteem om items aan een bepaalde gebruiker aan te bevelen. De laatste parameter die u in dit scenario wilt kiezen, is aanbevolen itemselectie. De optie Van geclassificeerde items (voor modelevaluatie) is voornamelijk bedoeld voor modelevaluatie tijdens het trainingsproces. Voor deze voorspellingsfase kiezen we uit alle items. De visualisatie van de uitvoer score Matchbox Recommender ziet eruit als afbeelding 22.

Scoreresultaat van aanbevelingssysteem -- itemaanbeveling

Afbeelding 22. Scoreresultaat visualiseren van de aanbeveling voor het systeem- en itemaanbeveling

De eerste van de zes kolommen vertegenwoordigt de opgegeven gebruikers-id's om items aan te bevelen, zoals opgegeven door de invoergegevens. De andere vijf kolommen vertegenwoordigen de items die aan de gebruiker worden aanbevolen in aflopende volgorde van relevantie. In de eerste rij is het meest aanbevolen restaurant voor klant U1048 bijvoorbeeld 134986, gevolgd door 135018, 134975, 135021 en 132862.

Gebruikers zoeken met betrekking tot een bepaalde gebruiker

Als u Gerelateerde gebruikers selecteert onder Type aanbevelingsvoorspelling, vraagt u het aanbevelingssysteem om gerelateerde gebruikers voor een bepaalde gebruiker te vinden. Gerelateerde gebruikers zijn de gebruikers met vergelijkbare voorkeuren. De laatste parameter die u in dit scenario moet kiezen, is gerelateerde gebruikersselectie. De optie Van gebruikers die geclassificeerde items (voor modelevaluatie) is voornamelijk bedoeld voor modelevaluatie tijdens het trainingsproces. Kies uit alle gebruikers voor deze voorspellingsfase. De visualisatie van de uitvoer score Matchbox Recommender ziet eruit als afbeelding 23.

Scoreresultaat van aanbevelingssysteem- gerelateerde gebruikers

Afbeelding 23. Scoreresultaten van de aanbevolen systeemgebruikers visualiseren

In de eerste van de zes kolommen ziet u de opgegeven gebruikers-id's die nodig zijn om gerelateerde gebruikers te vinden, zoals is opgegeven door invoergegevens. In de andere vijf kolommen worden de voorspelde gerelateerde gebruikers van de gebruiker opgeslagen in aflopende volgorde van relevantie. In de eerste rij is de meest relevante klant voor klant U1048 U1051, gevolgd door U1066, U1044, U1017 en U1072.

Items zoeken die betrekking hebben op een bepaald item

Als u Gerelateerde items selecteert onder Type aanbevelingsvoorspelling, vraagt u het aanbevelingssysteem om gerelateerde items voor een bepaald item te vinden. Gerelateerde items zijn de items die waarschijnlijk door dezelfde gebruiker worden leuk gevonden. De laatste parameter die u in dit scenario wilt kiezen, is de selectie van gerelateerde items. De optie Van geclassificeerde items (voor modelevaluatie) is voornamelijk bedoeld voor modelevaluatie tijdens het trainingsproces. We kiezen uit alle items voor deze voorspellingsfase. De visualisatie van de uitvoer score Matchbox Recommender ziet eruit als afbeelding 24.

Scoreresultaat van aanbevelingssysteem-gerelateerde items

Afbeelding 24. Scoreresultaten van de aanbevolen systeemgerelateerde items visualiseren

De eerste van de zes kolommen vertegenwoordigt de opgegeven item-id's die nodig zijn om gerelateerde items te vinden, zoals opgegeven door de invoergegevens. In de andere vijf kolommen worden de voorspelde gerelateerde items van het item opgeslagen in aflopende volgorde op het gebied van relevantie. In de eerste rij is het meest relevante item voor item 135026 bijvoorbeeld 135074, gevolgd door 135035, 132875, 135055 en 134992.

Webservicepublicatie

Het proces van het publiceren van deze experimenten als webservices om voorspellingen te krijgen, is vergelijkbaar voor elk van de vier scenario's. Hier nemen we het tweede scenario (aanbevolen items aan een bepaalde gebruiker) als voorbeeld. U kunt dezelfde procedure volgen met de andere drie.

Als u het getrainde aanbevelingssysteem opslaat als een getraind model en de invoergegevens filtert naar één kolom met gebruikers-id's, kunt u het experiment koppelen zoals in afbeelding 25 en publiceren als een webservice.

Score-experiment van het probleem met de aanbeveling van het restaurant

Afbeelding 25. Score-experiment van het probleem met de aanbeveling van het restaurant

Als u de webservice uitvoert, ziet het geretourneerde resultaat eruit als afbeelding 26. De vijf aanbevolen restaurants voor gebruiker U1048 zijn 134986, 135018, 134975, 135021 en 132862.

Voorbeeld van de aanbevelingssysteemservice

Voorbeeldexperimentresultaten

Afbeelding 26. Webserviceresultaat van probleem met aanbeveling van restaurant

Delen via

Modelresultaten interpreteren in Machine Learning Studio (klassiek)

Classificatie

Classificatie van twee klassen

Classificatie in meerdere klassen

Regressie

Clustering

Aanbevelingssysteem

Aanvullende resources