Sdílet prostřednictvím


Vysvětlení datových sad

Modely strojového učení se "učí" z historických rozhodnutí a akcí zachycených v trénovacích datech. V důsledku toho je jejich výkon ve scénářích reálného světa silně ovlivněný daty, na kterých jsou natrénovaná. Pokud je distribuce funkcí v datové sadě nerovnoměrná, může to způsobit, že model nesprávně predikuje datové body, které patří do nedostatečně reprezentované skupiny nebo které se optimalizují podle nevhodné metriky.

Když například model trénoval systém umělé inteligence pro predikci cen domů, trénovací sada představovala 75 procent novějších domů, které měly méně než medián cen. V důsledku toho bylo mnohem méně přesné při úspěšné identifikaci dražších historických domů. Oprava byla přidání starších a drahých domů do trénovacích dat a rozšíření funkcí tak, aby zahrnovaly přehledy o historické hodnotě. Rozšíření dat zlepšilo výsledky.

Komponenta analýzy dat na řídicím panelu Zodpovědné umělé inteligence pomáhá vizualizovat datové sady na základě předpovídaného a skutečného výsledku, skupin chyb a konkrétních funkcí. Pomáhá identifikovat problémy s překryvnou a podrepresentací a zjistit, jak jsou data v datové sadě clusterovaná. Vizualizace dat se skládají z agregovaných grafů nebo jednotlivých datových bodů.

Kdy použít analýzu dat

Analýzu dat použijte v případě, že potřebujete:

  • Prozkoumejte statistiky datové sady tak, že vyberete různé filtry pro rozdělení dat do různých dimenzí (označovaných také jako kohorty).
  • Porozumíte distribuci datové sady mezi různé kohorty a skupiny funkcí.
  • Určete, jestli vaše zjištění týkající se spravedlnosti, analýzy chyb a kauzality (odvozené z jiných komponent řídicího panelu) představují výsledek distribuce datové sady.
  • Rozhodněte se, ve kterých oblastech se mají shromažďovat další data, abyste zmírnit chyby, které pocházejí z problémů reprezentace, šumu popisků, šumu funkcí, předsudků popisků a podobných faktorů.

Další kroky