Freigeben über


Kontrafaktische Analyse und Was-wäre-wenn

Was-wäre-wenn-Alternativen beschäftigen sich mit der Frage, was das Modell bei einer Änderung der Aktionseingabe voraussagen würde. Sie ermöglichen es Ihnen, ein Machine Learning-Modell im Hinblick darauf zu verstehen und zu debuggen, wie es auf Änderungen der Eingaben (Features) reagiert.

Standardmäßige Interpretierbarkeitstechniken nähern sich einem Machine Learning-Modell an oder weisen Features nach ihrer prädiktiven Bedeutung einen Rang zu. Bei der kontrafaktischen Analyse wird dagegen ein Modell „abgefragt“, um festzustellen, welche Änderungen an einem bestimmten Datenpunkt die vom Modell getroffene Entscheidung verändern würden.

Eine solche Analyse hilft dabei, die Auswirkungen verschiedener korrelierter Features isoliert voneinander zu entflechten. Sie trägt auch dazu bei, ein differenzierteres Verständnis dafür zu erlangen, wie sehr ein Feature geändert werden muss, um eine Änderung der Modellentscheidung bei Klassifizierungs- und Regressionsmodellen zu erreichen.

Die Komponente Kontrafaktische Analyse und Was-wäre-wenn des Dashboards „Verantwortungsvolle KI“ bietet zwei Funktionen:

  • Generieren einer Reihe von Beispielen mit minimalen Änderungen an einem bestimmten Punkt, um die Vorhersage des Modells zu verändern (Anzeige der nächstgelegenen Datenpunkte mit entgegengesetzten Modellvorhersagen)
  • Ermöglichen der Generierung eigener Was-wäre-wenn-Störeinflüsse durch Benutzer, um zu verstehen, wie das Modell auf Änderungen der Features reagiert

Eines der wichtigsten Unterscheidungsmerkmale der Komponente „Kontrafaktische Analyse“ des Dashboards „Verantwortungsvolle KI“ ist die Möglichkeit, die zu variierenden Features und ihre zulässigen Bereiche für gültige und logische kontrafaktische Beispiele zu ermitteln.

Die Funktionen dieser Komponente stammen aus dem Paket DiCE.

Verwenden Sie Was-wäre-wenn-Alternativen für Folgendes:

  • Prüfen von Fairness- und Zuverlässigkeitskriterien als Entscheidungshilfe, indem Sie Störungen vertraulicher Features wie Geschlecht und ethnische Zugehörigkeit einführen und beobachten, ob sich die Modellvorhersagen ändern
  • Ausführliches Debuggen bestimmter Eingabeinstanzen.
  • Bereitstellen von Lösungen für Benutzer und Festlegen der möglichen Aktionen, mit denen sie ein wünschenswertes Ergebnis mit dem Modell erzielen können

Wie werden kontrafaktische Beispiele generiert?

Zum Generieren von kontrafaktischen Daten implementiert DiCE einige modellagnostische Techniken. Diese Methoden gelten für jeden Klassifizierer oder Regressor für undurchsichtige Behälter. Sie basieren auf de m Sampling von Punkten, die sich in der Nähe eines Eingabepunkts befinden, während eine Verlustfunktion auf der Grundlage der Nähe (und optional auf der Grundlage der geringen Datendichte, der Diversität und Durchführbarkeit) optimiert wird. Derzeit werden folgende Methoden unterstützt:

  • Zufällige Suche: Diese Methode nimmt eine zufällige Stichprobe von Punkten in der Nähe eines Abfragepunkts und gibt die Alternativen (kontrafaktischen Punkte) zurück, deren vorhergesagte Bezeichnung der gewünschten Klasse entspricht.
  • Genetische Suche: Diese Methode nimmt unter Verwendung eines genetischen Algorithmus eine zufällige Stichprobe von Punkten mit der Zielsetzung, die Nähe zum gegebenen Abfragepunkt zu optimieren, so wenig Features wie möglich zu ändern und Diversität unter den generierten Alternativen zu erzielen.
  • KD-Struktursuche: Dieser Algorithmus gibt Alternativen aus dem Trainingsdataset zurück. Die Suche konstruiert eine KD-Struktur für die Trainingsdatenpunkte auf der Grundlage einer distance-Funktion und gibt dann die Punkte zurück, die einem bestimmten Abfragepunkt am nächsten liegen und die gewünschte vorhergesagte Bezeichnung ergeben.

Nächste Schritte