Delen via


Analyse van contrafacten en wat-als

Wat-als-contrafactuals hebben betrekking op de vraag wat het model zou voorspellen als u de actie-invoer hebt gewijzigd. Ze maken inzicht in en foutopsporing van een machine learning-model mogelijk in termen van hoe het reageert op wijzigingen in invoer (functie).

Standaard interpreteerbaarheidstechnieken benaderen een machine learning-model of rangschikken van functies op basis van hun voorspellende belang. Daarentegen ondervraagt contrafactuele analyse een model om te bepalen welke wijzigingen in een bepaald gegevenspunt de modelbeslissing zouden spiegelen.

Een dergelijke analyse helpt bij het loskoppelen van de impact van gecorreleerde functies in isolatie. Het helpt u ook om meer genuanceerd inzicht te krijgen in de mate van een functiewijziging die nodig is om een modelbeslissing te spiegelen voor classificatiemodellen en een beslissingswijziging voor regressiemodellen.

De contrafactuele analyse en het wat-als-onderdeel van het dashboard Voor verantwoorde AI hebben twee functies:

  • Genereer een set voorbeelden met minimale wijzigingen in een bepaald punt, zodat ze de voorspelling van het model wijzigen (met de dichtstbijzijnde gegevenspunten met tegenovergestelde modelvoorspellingen).
  • Gebruikers in staat stellen om hun eigen wat-als-verstoringen te genereren om te begrijpen hoe het model reageert op functiewijzigingen.

Een van de belangrijkste differentiators van het contrafactuele analyseonderdeel van het Responsible AI-dashboard is het feit dat u kunt bepalen welke functies moeten variƫren en de toegestane bereiken voor geldige en logische contrafactuele voorbeelden.

De mogelijkheden van dit onderdeel zijn afkomstig van het DiCE-pakket .

Gebruik wat-als-contrafactuals wanneer u het volgende moet doen:

  • Onderzoek eerlijkheids- en betrouwbaarheidscriteria als beslissings evaluator door gevoelige kenmerken zoals geslacht en etniciteit te verstoren en vervolgens te observeren of modelvoorspellingen veranderen.
  • Fouten opsporen in specifieke invoerexemplaren.
  • Bied oplossingen aan gebruikers en bepaal wat ze kunnen doen om een wenselijk resultaat van het model te krijgen.

Hoe worden er contrafactuele voorbeelden gegenereerd?

Voor het genereren van contrafactuals implementeert DiCE enkele modelagnostische technieken. Deze methoden zijn van toepassing op een ondoorzichtige classificatie of regressor. Ze zijn gebaseerd op steekproeven in de buurt naar een invoerpunt, terwijl een verliesfunctie wordt geoptimaliseerd op basis van nabijheid (en optioneel, spaarzaamheid, diversiteit en haalbaarheid). Momenteel ondersteunde methoden zijn:

  • Gerandomiseerde zoekopdracht: met deze methode worden willekeurig punten in de buurt van een querypunt geretourneerd en worden contrafactuals geretourneerd als punten waarvan het voorspelde label de gewenste klasse is.
  • Genetisch zoeken: deze methode steekt punten af met behulp van een genetisch algoritme, gezien het gecombineerde doel om de nabijheid van het querypunt te optimaliseren, zo weinig mogelijk functies te wijzigen en diversiteit te zoeken tussen de gegenereerde contrafactuals.
  • Zoeken in KD-structuur: Dit algoritme retourneert contrafacten uit de trainingsgegevensset. Hiermee wordt een KD-structuur gemaakt over de trainingsgegevenspunten op basis van een afstandsfunctie en worden de dichtstbijzijnde punten geretourneerd naar een bepaald querypunt dat het gewenste voorspelde label oplevert.

Volgende stappen