Bra, dåliga och saknade data
Som en bieffekt av datas påverkan på maskininlärning presterar modeller som endast tränas på små mängder data sällan bra i verkligheten. Det här beteendet beror på att små mängder data vanligtvis inte fungerar som bra verkliga representationer. Till exempel skulle fyra slumpmässigt utvalda personer på jorden inte på ett tillförlitligt sätt representera den genomsnittliga personen. Om vi däremot valde 1 000 000 000 personer skulle våra data förmodligen bli representativa.
Andra faktorer har dock också betydelse. Vi behöver stora, representativa dataexempel som:
- Ha noll fel.
- Innehåller all viktig information.
Vi tar upp dessa problem här, innan vi går vidare till en praktisk övning som involverar vår Titanic-datauppsättning.
"Representant" - Vad betyder det?
Statistiker förlitar sig på två viktiga begrepp, populationer och exempel, för att avgöra om tillgängliga dataresurser faktiskt hjälper deras analys och studier.
Vi fokuserar på en befolkning. Med andra ord, varje tänkbar datapunkt. I vårt Titanic-scenario vill vi veta vilka faktorer som ledde till överlevnad för alla ombord. Detta inkluderar fripassagerare som inte finns med i de officiella arkiven. Som ett andra exempel, för att undersöka förhållandet mellan personlighetsdrag och sannolikheten för att ett fartyg sjunker, skulle vår befolkning täcka varje fartygskapten som någonsin levt.
Ett exempel refererar till de data som är tillgängliga för oss, som en delmängd av den totala populationen. För vår Titanic-datamängd omfattar det här exemplet endast de personer som anges på den officiella passagerarlistan. I vårt andra exempel kan exemplet omfatta alla fartygskaptener som vi kan övertyga om att göra ett personlighetstest i vår lokala marina.
Vi måste fundera på om urvalet representerar populationen korrekt. För vårt Titanic-exempel är vårt exempel så stort att det förmodligen fungerar som en bra representation av populationen. Däremot ger samtal med endast fartygskaptener vid vår lokala marina förmodligen inte oss ett bra tvärsnitt av sjömännen vi skulle hitta över hela världen. Data från vår lokala marina kan skapa en modell som fungerar bra för lokala kaptener, men det hjälper oss inte att förstå kaptener från andra länder/regioner.
Vad är ett datafel?
Termen datafel refererar till felaktiga data. Tillräckligt med datafel kan förvränga en modell så att den konsekvent gör felaktiga förutsägelser. Det är enkelt: om du lägger in felaktiga data får du dåliga förutsägelser.
Fel i data är ett faktum och vi kan gruppera dem i två kategorier, måttfel och datainmatningsfel.
Termmätningsfel refererar till data med lågkvalitetsmätningar i datainsamlingsfasen. Dessa fel är ofta subtila och svåra eller omöjliga att eliminera.
Termen datainmatningsfel avser korrekt insamlade data, men placeras sedan felaktigt eller felaktigt i ett kalkylblad eller en datahanteringsresurs. Ibland kan vi upptäcka datainmatningsfel enklare än vi kan upptäcka måttfel. Vi kan till exempel mäta någon som 1,8 meter hög, men missa decimaltecknet och skriva 18 meter. Vi kan enkelt se felet eftersom en person i trädstorlek är orealistisk.
Vad är fullständiga data?
En fullständig datauppsättning saknar inga data. Saknade data har två typer. Dessa data visar längden och vikten på Dylan, Reece och Tom:
Name | Höjd (m) | Weight (kg) |
---|---|---|
Dylan | 1.8 | 75 |
Reece | 82 |
Data är ofullständiga på grund av ett exempel som saknas: Tom. Dessutom visar data för Reece inte reece-höjden.
Helst arbetar vi alltid med fullständiga data, men vi har inte alltid fullständiga data tillgängliga för oss. För ofullständiga data kan vi göra något av följande:
- Välj en modell som kan fungera med ofullständiga data.
- Ta bort exempel (rader) som har ofullständiga data och arbeta med återstående data.
- Lägg till värden artificiellt som rimliga substitut för saknade data.
De flesta gånger fungerar det bäst att välja en modell som kan hantera saknade data, även om det inte alltid är möjligt. Borttagning av ofullständiga data är den enklaste metoden, och det fungerar vanligtvis. Vi måste dock vara försiktiga så att borttagning av data inte leder till att ett exempel ger en felaktig bild av populationen. Att artificiellt lägga till data är vanligtvis en metod för sista utvägen.
I nästa lektion ska vi arbeta med vår Titanic-datauppsättning för att identifiera och korrigera ofullständiga data.