Fouten in machine learning-modellen beoordelen
Een van de grootste uitdagingen met de huidige procedures voor modelopsporing is het gebruik van statistische metrische gegevens om modellen te scoren op een benchmarkgegevensset. Modelnauwkeurigheid is mogelijk niet uniform in subgroepen met gegevens en er zijn mogelijk invoercohorten waarvoor het model vaker uitvalt. De directe gevolgen van deze fouten zijn een gebrek aan betrouwbaarheid en veiligheid, het verschijnen van eerlijkheidsproblemen en een verlies van vertrouwen in machine learning.
Foutanalyse wordt verwijderd van metrische statistische nauwkeurigheidsgegevens. Het maakt de distributie van fouten op transparante wijze beschikbaar voor ontwikkelaars en stelt ze in staat om fouten efficiƫnt te identificeren en diagnosticeren.
Het onderdeel foutanalyse van het verantwoordelijke AI-dashboard biedt machine learning-beoefenaars een dieper inzicht in de verdeling van modelfouten en helpt hen snel onjuiste cohorten van gegevens te identificeren. Dit onderdeel identificeert de cohorten van gegevens met een hoger foutpercentage ten opzichte van het totale benchmarkfoutpercentage. Het draagt bij aan de identificatiefase van de levenscycluswerkstroom van het model via:
- Een beslissingsstructuur die cohorten met hoge foutpercentages weergeeft.
- Een heatmap die visualiseert hoe invoerfuncties van invloed zijn op de foutsnelheid in cohorten.
Afwijkingen in fouten kunnen optreden wanneer het systeem minder goed presteert voor specifieke demografische groepen of onregelmatig waargenomen invoercohorten in de trainingsgegevens.
De mogelijkheden van dit onderdeel zijn afkomstig uit het pakket Foutanalyse , waarmee modelfoutprofielen worden gegenereerd.
Gebruik een foutanalyse wanneer u het volgende moet doen:
- Krijg inzicht in hoe modelfouten worden verdeeld over een gegevensset en over verschillende invoer- en functiedimensies.
- De metrische statistische prestatiegegevens opsplitsen om automatisch onjuiste cohorten te detecteren om uw gerichte risicobeperkingsstappen te informeren.
Foutstructuur
Foutpatronen zijn vaak complex en hebben betrekking op meer dan een of twee functies. Ontwikkelaars kunnen moeite hebben met het verkennen van alle mogelijke combinaties van functies om verborgen gegevenszakken met kritieke fouten te ontdekken.
Om de last te verlichten, partitioneert de binaire structuurvisualisatie de benchmarkgegevens automatisch in interpreteerbare subgroepen met onverwacht hoge of lage foutpercentages. Met andere woorden, de structuur gebruikt de invoerfuncties om de modelfout maximaal te scheiden van succes. Voor elk knooppunt dat een gegevenssubgroep definieert, kunnen gebruikers de volgende informatie onderzoeken:
- Foutpercentage: een deel van de exemplaren in het knooppunt waarvoor het model onjuist is. Het wordt weergegeven door de intensiteit van de rode kleur.
- Foutdekking: een deel van alle fouten die in het knooppunt vallen. Dit wordt weergegeven via de vulsnelheid van het knooppunt.
- Gegevensweergave: het aantal exemplaren in elk knooppunt van de foutstructuur. Dit wordt weergegeven door de dikte van de binnenkomende rand naar het knooppunt, samen met het totale aantal exemplaren in het knooppunt.
Fout heatmap
De weergave segmenteert de gegevens op basis van een eendimensionaal of tweedimensionaal raster met invoerfuncties. Gebruikers kunnen de gewenste invoerfuncties voor analyse kiezen.
De heatmap visualiseert cellen met een hoge fout door een donkerdere rode kleur te gebruiken om de aandacht van de gebruiker te vestigen op deze regio's. Deze functie is vooral nuttig wanneer de foutthema's verschillen tussen partities, wat vaak gebeurt in de praktijk. In deze weergave voor foutidentificatie wordt de analyse sterk begeleid door de gebruikers en hun kennis of hypothesen van welke functies het belangrijkst kunnen zijn voor het begrijpen van fouten.
Volgende stappen
- Meer informatie over het genereren van het verantwoordelijke AI-dashboard via CLI en SDK of Azure Machine Learning-studio ui.
- Verken de ondersteunde visualisaties voor foutanalyse.
- Meer informatie over het genereren van een verantwoordelijke AI-scorecard op basis van de inzichten die worden waargenomen in het dashboard voor verantwoorde AI.