Sdílet prostřednictvím


Analýza kontrafaktualů a citlivostní analýza

Kontrafaktuální čítače citlivosti řeší otázku, co by model predikoval, pokud byste změnili vstup akce. Umožňují pochopit a ladit model strojového učení z hlediska toho, jak reaguje na změny vstupu (funkce).

Standardní techniky interpretability se přibližují modelu strojového učení nebo funkcím pořadí podle jejich prediktivní důležitosti. Naproti tomu kontrafaktuální analýza "vyslýchá" model, aby určil, jaké změny konkrétního datového bodu by překlopily rozhodnutí modelu.

Taková analýza pomáhá při propletení dopadu korelovaných funkcí v izolaci. Pomůže vám také pochopit, kolik změn funkcí je potřeba k tomu, abyste viděli překlopení rozhodnutí modelu pro klasifikační modely a změnu rozhodnutí pro regresní modely.

Kontrafaktuální analýza a komponenta citlivostní analýzy řídicího panelu Zodpovědné AI má dvě funkce:

  • Vygenerujte sadu příkladů s minimálními změnami konkrétního bodu, aby změnili predikci modelu (zobrazující nejbližší datové body s opačnými předpověďmi modelu).
  • Umožňuje uživatelům generovat vlastní perturbace citlivostní citlivosti, abyste pochopili, jak model reaguje na změny funkcí.

Jedním z nejlepších odlišovačů kontrafaktuální analýzy řídicího panelu Zodpovědné umělé inteligence je skutečnost, že můžete zjistit, které funkce se mají lišit, a jejich přípustné rozsahy pro platné a logické kontrafaktuální příklady.

Možnosti této komponenty pocházejí z balíčku DiCE .

Pokud potřebujete, použijte protifakterální čítače citlivosti:

  • Prozkoumejte kritéria spravedlnosti a spolehlivosti jako vyhodnocovače rozhodnutí, a to tak, že zhodnocujete citlivé atributy, jako je pohlaví a etnická příslušnost, a pak sledujte, jestli se predikce modelu mění.
  • Podrobné ladění konkrétních vstupních instancí
  • Poskytněte uživatelům řešení a určete, co můžou udělat, aby z modelu získali žádoucí výsledek.

Jak se generují kontrafaktuální příklady?

K vygenerování kontrafaktualů diCE implementuje několik technik, které jsou nezávislé na modelu. Tyto metody se vztahují na jakýkoli klasifikátor nebo regresor neprůzorné pole. Jsou založeny na vzorkování blízkých bodů na vstupní bod a současně optimalizují funkci ztráty na základě blízkosti (a volitelně i sparsity, rozmanitosti a proveditelnosti). Aktuálně podporované metody jsou:

  • Randomizované vyhledávání: Tato metoda vzorkuje náhodně blízko bodu dotazu a vrací kontrafaktuální hodnoty jako body, jejichž predikovaný popisek je požadovaná třída.
  • Genetické vyhledávání: Tato metoda vzorkuje body pomocí genetického algoritmu, vzhledem k kombinovanému cíli optimalizace blízkosti bodu dotazu, změně co nejméně funkcí a hledání rozmanitosti mezi vygenerovanými kontrafaktuálními.
  • Hledání stromové struktury KD: Tento algoritmus vrátí kontrafaktuální hodnoty z trénovací datové sady. Vytvoří strom KD nad trénovacími datovými body na základě funkce vzdálenosti a pak vrátí nejbližší body k určitému bodu dotazu, který poskytuje požadovaný predikovaný popisek.

Další kroky