Granska olika typer av data
Data är bara ytterligare ett ord för insamlad information. Volymer och massor av tillgänglig information är enorma och omfattar många olika informationstyper.
Vi kan kategorisera data på många sätt. För att kunna arbeta i maskininlärningsutrymmet måste vi förstå både typen och det digitala lagringssystemet för de data som är tillgängliga för oss.
Kontinuerliga, ordningsmässiga och kategoriska data
För dataåtgärder behöver vi ibland medvetenhet om exakt vad data representerar. Den här medvetenheten kan hjälpa oss att välja rätt maskininlärningsmodell. Det kan också hjälpa oss att organisera våra data på specifika och användbara sätt.
Kontinuerliga data refererar till numerisk information som kan öka eller minska med vilken mängd som helst. Du kan till exempel lägga till en millimeter till en meter och beräkna en summa som 1,001 meter.
Kategoriska data refererar till data som inte faller på ett kontinuerligt spektrum. I vårt scenario kategoriserar data personerna på Titanic som besättning eller passagerare. Kategoriska data kan inte lagras som tal på ett uppenbart sätt.
Ordningstalsdata refererar till kategoriska data som har en definierad ordning och kan därför stödja lagring som numeriska värden. Vi kan till exempel definiera värden för stora, medelstora och små som ordningsdata eftersom vi numeriskt kan rangordna dem som stora > medelstora > små. Däremot är värdena äpple, apelsin och kokos kategoriska eftersom vi inte kan rangordna dem. Ordningstal kan också referera till tal som kan öka eller minska, men bara efter angivna belopp. Till exempel är antalet personer som går ombord på en båt garanterat ett heltal eftersom ingen kan halvpension.
ID:t refererar till en särskild typ av kategoriska data där varje exempel har ett eget unikt ID. Till exempel har varje person i vår datauppsättning på Titanic ett givet ID-värde, även om den personen har samma namn som någon annan. Identitetsvärden hjälper oss att navigera i en datauppsättning, men vår dataanalys omfattar inte dessa värden direkt.
Datatyper
En dator måste lagra och bearbeta alla data som vi använder för maskininlärning. Även om vi kan skriva nästan alla data på ett papper med en penna, lagrar datorer information som serier av 0:or och 1:or. Detta medför begränsningar för hur vi använder information.
Datatyp refererar till den typ av data som en dator lagrar. Datatyper har vanligtvis följande kategorier:
- Heltal: räknar tal som 2.
- Flyttalsnummer: tal med decimaler som 2,43.
- Strängar: bokstäver och ord.
- Booleska värden: sant och falskt.
- Ingen, void eller null: inte data, utan snarare avsaknaden av data.
De exakta termerna och implementeringen för dessa begrepp varierar från språk till språk, men alla fungerar på liknande sätt i alla datorspråk.
Ibland erbjuder två olika datatyper motsvarande funktioner. Datorer kan till exempel hantera sanna/falska värden som booleska värden (sant eller falskt), strängar (y eller n), heltal (0 eller 1) eller flyttalsnummer (0,0 eller 1,0).
Härledda datatyper
När vi använder teknik stöter vi på många mer grundläggande och primitiva datatyper utöver ovanstående lista. Datorer kan lagra datum, bilder, 3D-modeller och så vidare. Vi refererar till dessa som härledda datatyper. Vi börjar med en eller flera primitiva datatyper för att skapa en härledd datatyp.
Ofta inom maskininlärning hjälper det till att konvertera härledda typer till enklare representationer. Vi kan till exempel lagra ett definierat datumvärde som den 1 januari 2017 som ett heltal eller flyttalsnummer, till exempel 20170101. Heltal eller flyttalsnummer gör beräkningarna bakom våra modeller enklare.
För många val?
Om du vet vilken typ av data du har tillgängliga kan du välja rätt datatyp.
Rätt datatyp kan bero på vilket paket du använder för att köra dina modeller, även om paket vanligtvis är tillåtande. I regel:
- Om du vill arbeta med kontinuerliga data blir flyttalsnummer det bästa valet.
- Ordningstalsdata kodar vanligtvis med heltalsvärden.
- Kategoridata som endast omfattar två kategorier kan vanligtvis kodas som booleska data eller heltalsdata. Att arbeta med tre eller fler kategorier kan bli lite mer komplicerat. Oroa dig inte, nästa lektion kommer att omfatta det här ämnet!
I nästa övning övar vi på datavisualisering för att bättre förstå själva data. När vi gör det bör du noggrant notera de berörda datatyperna och försöka identifiera de kontinuerliga, ordningsmässiga eller kategoriska datatyperna.