Dela via


Förstå dina datauppsättningar

Maskininlärningsmodeller "lär sig" från historiska beslut och åtgärder som samlas in i träningsdata. Därför påverkas deras prestanda i verkliga scenarier starkt av de data som de tränas på. När funktionsdistributionen i en datamängd är skev kan det leda till att en modell felaktigt förutsäger datapunkter som tillhör en underrepresenterad grupp eller optimeras längs ett olämpligt mått.

Medan en modell till exempel tränade ett AI-system för att förutsäga huspriser, representerade träningsuppsättningen 75 procent av nyare hus som hade mindre än medianpriserna. Som ett resultat var det mycket mindre exakt för att framgångsrikt identifiera dyrare historiska hus. Korrigeringen var att lägga till äldre och dyra hus till träningsdata och utöka funktionerna så att de innehåller insikter om historiska värden. Den dataförstoringen förbättrade resultaten.

Dataanalyskomponenten i instrumentpanelen ansvarsfull AI hjälper till att visualisera datauppsättningar baserat på förutsagda och faktiska resultat, felgrupper och specifika funktioner. Det hjälper dig att identifiera problem med överrepresentation och underrepresentation och att se hur data grupperas i datauppsättningen. Datavisualiseringar består av aggregerade diagram eller enskilda datapunkter.

När du ska använda dataanalys

Använd dataanalys när du behöver:

  • Utforska datamängdsstatistiken genom att välja olika filter för att dela upp dina data i olika dimensioner (kallas även kohorter).
  • Förstå fördelningen av datamängden mellan olika kohorter och funktionsgrupper.
  • Ta reda på om dina resultat som rör rättvisa, felanalys och orsakssamband (härledda från andra instrumentpanelskomponenter) är ett resultat av datauppsättningens distribution.
  • Bestäm inom vilka områden du vill samla in mer data för att minimera fel som uppstår vid representationsproblem, etikettbrus, funktionsbrus, etikettfördomar och liknande faktorer.

Nästa steg