Sammanfattning

Slutförd

Vi täckte mycket mark. Nu ska vi granska några av de viktigaste meddelandena.

Vad är datakategorier?

Data delas in i flera konceptuella kategorier. De vanligaste är:

  • Kontinuerliga data (tal).
  • Kategoridata som inte har någon ordning.
  • Ordningstalsdata, som kan behandlas som siffror eller ordnade kategorier.

Datorer lagrar data som distinkta typer, och vi försöker vanligtvis matcha datatypen med specifika data. Om du till exempel vill lagra kontinuerliga data fungerar flyttalsnummer bäst eftersom flyttalsnummer tillåter lagring av bråktal. Kategoridata anländer däremot ofta som strängar (text) och måste konverteras till en frekvent vektorer för att datorn ska förstå dem korrekt.

Vad gör en bra datamängd?

Vi har lärt oss att en datauppsättning är användbar om:

  • Den innehåller relevant information.
  • Det är klart.
  • Det är en bra representation av befolkningen (verkliga).

Om vi måste hantera ofullständiga data kan vi vidta åtgärder för att se till att ofullständiga data inte orsakar några större problem. När vi gör det måste vi undvika att införa nya problem, till exempel ändringar som gör att data inte längre är representativa.

Tänka på data

Vi visade hur datavisualisering kan bidra till att skapa en förståelse för vad som kan vara användbart i en modell. Användning av olika typer av grafer, färger och liknande kan vara roligt och göra komplex information mycket mer intuitiv.

Vi har lärt oss att förstå våra data gör att vi kan fatta bättre beslut om våra modeller. I den sista övningen förbättrade vi vår modell när vi utforskade antalet stugor på Titanic, och vi övervägde hur den här informationen hjälpte oss. Men på det hela taget fann vi att vi skulle kunna förbättra detta genom förenkling till nio däcketiketter.