Introduktion
Maskininlärning får sin förutsägelsekraft från de data som formar den. Om du vill skapa effektiva modeller måste du förstå de data du använder.
Här utforskar vi hur både människor och datorer kategoriserar, lagrar och tolkar data. Vi undersöker vad som gör en bra datamängd och hur du åtgärdar problem i våra tillgängliga data. Vi övar också på att utforska nya data, och vi ser hur djuptänkande om en datamängd kan hjälpa oss att skapa bättre förutsägelsemodeller.
Scenario: Titanics sista resa
Som ivrig marinarkeolog har du ett ovanligt stort intresse för sjöfartskatastrofer. Sent en natt, medan du klickar mellan bilder av valben och gamla rullar om Atlantis, hittar du en offentlig datauppsättning som listar kända passagerare och besättning av titanicens första och sista resa. Dras in av balansen mellan öde och slump, undrar du, vilka faktorer bestämde överlevnaden för en Titanic passagerare? Data från den här perioden är något ofullständiga. Mycket information för vissa passagerare är okänd. Du måste hitta sätt att korrigera dessa data innan du kan analysera dem fullständigt.
Förutsättningar
- Viss kunskap om maskininlärningskoncept (till exempel modeller och kostnader) hjälper, men det krävs inte.
Utbildningsmål
I den här modulen kommer du att:
- Visualisera stora datamängder med Exploratory Data Analysis (EDA).
- Rensa felen från en datauppsättning.
- Förutsäga okända värden med numeriska och kategoriska data.