Dela via


Modellprestanda och rättvisa

I den här artikeln beskrivs metoder som du kan använda för att förstå modellens prestanda och rättvisa i Azure Machine Learning.

Vad är rättvis maskininlärning?

Artificiell intelligens och maskininlärningssystem kan visa orättvist beteende. Ett sätt att definiera orättvist beteende är genom dess skada eller dess inverkan på människor. AI-system kan orsaka många typer av skador. Mer information finns i Keynote för NeurIPS 2017 av Kate Crawford.

Två vanliga typer av AI-orsakade skador är:

  • Skada av allokering: Ett AI-system utökar eller undanhåller möjligheter, resurser eller information för vissa grupper. Exempel är anställning, skolantagning och utlåning, där en modell kan vara bättre på att välja bra kandidater bland en viss grupp människor än bland andra grupper.

  • Skada av tjänstkvalitet: Ett AI-system fungerar inte lika bra för en grupp människor som för en annan. Till exempel kan ett röstigenkänningssystem misslyckas med att fungera lika bra för kvinnor som för män.

För att minska orättvist beteende i AI-system måste du utvärdera och minimera dessa skador. Komponenten för modellöversikteninstrumentpanelen ansvarsfull AI bidrar till identifieringssteget i modellens livscykel genom att generera modellprestandamått för hela datamängden och dina identifierade kohorter av data. Den genererar dessa mått mellan undergrupper som identifieras när det gäller känsliga funktioner eller känsliga attribut.

Kommentar

Rättvisa är en socio-teknisk utmaning. Kvantitativa rättvisemått fångar inte upp många aspekter av rättvisa, till exempel rättvisa och rättsprocess. Dessutom kan många kvantitativa rättvisemått inte uppfyllas samtidigt.

Målet med Fairlearn-paketet med öppen källkod är att göra det möjligt för människor att utvärdera strategierna för påverkan och minskning. I slutändan är det upp till de människor som skapar AI- och maskininlärningsmodeller att göra kompromisser som är lämpliga för deras scenarier.

I den här komponenten i instrumentpanelen ansvarsfull AI konceptualiseras rättvisa genom en metod som kallas grupp rättvisa. Den här metoden frågar: "Vilka grupper av individer riskerar att drabbas av skada?" Termen känsliga funktioner tyder på att systemdesignern bör vara känslig för dessa funktioner vid bedömning av gruppkonsekvens.

Under utvärderingsfasen kvantifieras rättvisa genom olika mått. Dessa mått kan utvärdera och jämföra modellbeteende mellan grupper antingen som förhållanden eller som skillnader. Instrumentpanelen ansvarsfull AI stöder två klasser av olika mått:

  • Skillnader i modellprestanda: Dessa uppsättningar mått beräknar skillnaden (skillnaden) i värdena för det valda prestandamåttet mellan undergrupper av data. Några exempel:

    • Skillnader i noggrannhetsgrad
    • Skillnader i felfrekvens
    • Skillnader i precision
    • Skillnader i återkallande
    • Skillnader i genomsnittligt absolut fel (MAE)
  • Skillnader i urvalshastighet: Det här måttet innehåller skillnaden i urvalshastighet (gynnsam förutsägelse) mellan undergrupper. Ett exempel på detta är skillnader i kreditgodkännanderänta. Urvalsfrekvens innebär bråkdelen av datapunkter i varje klass klassificerad som 1 (i binär klassificering) eller fördelning av förutsägelsevärden (i regression).

Funktionerna för rättvis bedömning av den här komponenten kommer från Fairlearn-paketet . Fairlearn tillhandahåller en samling mått för rättvisebedömning av modeller och algoritmer för riskreducering av orättvisor.

Kommentar

En rättvisebedömning är inte en rent teknisk övning. Fairlearn-paketet med öppen källkod kan identifiera kvantitativa mått som hjälper dig att bedöma en modells rättvisa, men den utför inte utvärderingen åt dig. Du måste utföra en kvalitativ analys för att utvärdera rättvisa för dina egna modeller. De känsliga funktioner som noterades tidigare är ett exempel på den här typen av kvalitativ analys.

Paritetsbegränsningar för att minimera orättvisor

När du har förstått modellens rättviseproblem kan du använda åtgärdsalgoritmerna i Fairlearn-paketet med öppen källkod för att åtgärda dessa problem. Dessa algoritmer stöder en uppsättning begränsningar för förutsägelsens beteende som kallas paritetsbegränsningar eller villkor.

Paritetsbegränsningar kräver att vissa aspekter av förutsägelsens beteende är jämförbara mellan de grupper som känsliga funktioner definierar (till exempel olika raser). Åtgärdsalgoritmerna i Fairlearn-paketet med öppen källkod använder sådana paritetsbegränsningar för att minimera de observerade rättviseproblemen.

Kommentar

Algoritmerna för illojalhetsreducering i Fairlearn-paketet med öppen källkod kan tillhandahålla föreslagna minskningsstrategier för att minska orättvisorna i en maskininlärningsmodell, men dessa strategier eliminerar inte orättvisa. Utvecklare kan behöva överväga andra paritetsbegränsningar eller kriterier för sina maskininlärningsmodeller. Utvecklare som använder Azure Machine Learning måste själva avgöra om åtgärden minskar orättvisorna i sin avsedda användning och distribution av maskininlärningsmodeller tillräckligt.

Fairlearn-paketet stöder följande typer av paritetsbegränsningar:

Paritetsbegränsning Syfte Maskininlärningsuppgift
Demografisk paritet Minimera allokeringsskador Binär klassificering, regression
Utjämnade odds Diagnostisera allokering och skada på tjänstkvalitet Binär klassificering
Lika möjligheter Diagnostisera allokering och skada på tjänstkvalitet Binär klassificering
Begränsad gruppförlust Minimera skador på tjänstkvaliteten Regression

Minskningsalgoritmer

Fairlearn-paketet med öppen källkod innehåller två typer av algoritmer för illojala åtgärder:

  • Minskning: Dessa algoritmer använder en vanlig maskininlärningsestimator (till exempel en LightGBM-modell) och genererar en uppsättning omtränad modeller med hjälp av en sekvens med omviktade träningsdatauppsättningar.

    Till exempel kan sökande av ett visst kön vara uppviktade eller nedviktade för att träna om modeller och minska skillnaderna mellan könsgrupper. Användarna kan sedan välja en modell som ger den bästa kompromissen mellan noggrannhet (eller ett annat prestandamått) och skillnader, baserat på deras affärsregler och kostnadsberäkningar.

  • Efterbearbetning: Dessa algoritmer använder en befintlig klassificerare och en känslig funktion som indata. De härleder sedan en omvandling av klassificerarens förutsägelse för att framtvinga de angivna rättvisebegränsningarna. Den största fördelen med en efterbearbetningsalgoritm, tröskeloptimering, är dess enkelhet och flexibilitet eftersom den inte behöver träna om modellen.

Algoritm beskrivning Maskininlärningsuppgift Känsliga funktioner Paritetsbegränsningar som stöds Algoritmtyp
ExponentiatedGradient Black-box-metod för rättvis klassificering som beskrivs i A Reductions Approach to Fair Classification(A Reductions Approach to Fair Classification). Binär klassificering Kategoriska Demografisk paritet, utjämnade odds Reduktion
GridSearch Black-box-metod som beskrivs i A Reductions Approach to Fair Classification (En minskningsmetod för rättvis klassificering). Binär klassificering Binära Demografisk paritet, utjämnade odds Reduktion
GridSearch Black-box-metod som implementerar en rutnätssökningsvariant av rättvis regression med algoritmen för begränsad gruppförlust som beskrivs i Fair Regression: Kvantitativa definitioner och minskningsbaserade algoritmer. Regression Binära Begränsad gruppförlust Reduktion
ThresholdOptimizer Algoritm för efterbearbetning baserat på dokumentet Likhet mellan affärsmöjligheter i övervakad inlärning. Den här tekniken tar som indata en befintlig klassificerare och en känslig funktion. Sedan härleds en monoton transformering av klassificerarens förutsägelse för att framtvinga de angivna paritetsbegränsningarna. Binär klassificering Kategoriska Demografisk paritet, utjämnade odds Efterbearbetar

Nästa steg