Visualizzare i dati
I data scientist visualizzano i dati per comprenderli meglio. Potrebbero analizzare i dati non elaborati, esaminare le misure di riepilogo, come le medie, o tracciare un grafico dei dati. I grafici sono un potente mezzo per visualizzare i dati e i data scientist spesso usano grafici per distinguere rapidamente modelli moderatamente complessi.
Rappresentazione visiva dei dati
La creazione di grafici consente di conseguire una rapida valutazione qualitativa dei dati, utile per comprendere i risultati, trovare valori outlier, esaminare il modo in cui vengono distribuiti i numeri e così via.
Anche se a volte si sa in anticipo quale tipo di grafico sarà più utile, altre volte si usano i grafici in modo esplorativo. Per capire le potenzialità della visualizzazione dei dati, prendere come esempio i dati seguenti: la posizione (x, y) di un'auto a guida autonoma. È difficile determinare i modelli reali nella forma non elaborata dei dati. La media indica che il percorso dell'auto è stato incentrato su x=0,2 e y=0,3 e che l'intervallo di numeri sembra essere compreso tra -2 e 2 circa.
Time | Posizione X | Posizione Y |
---|---|---|
0 | 0 | 2 |
1 | 1,682942 | 1,080605 |
2 | 1,818595 | 0,83229 |
3 | 0,28224 | 1,97998 |
4 | 1,5136 | 1,30729 |
5 | 1,91785 | 0,567324 |
6 | 0,55883 | 1,920341 |
7 | 1,313973 | 1,507805 |
12 | 0,00001 | 0,00001 |
13 | 0,840334 | 1,814894 |
14 | 1,981215 | 0,273474 |
15 | 1,300576 | -1,51938 |
16 | -0,57581 | -1,91532 |
17 | -1,92279 | -0,55033 |
18 | -1,50197 | 1,320633 |
19 | 0,299754 | 1,977409 |
20 | 1,825891 | 0,816164 |
Se ora si traccia Posizione-X nel tempo, si può vedere che sembrano mancare alcuni valori compresi tra 7 e 12.
Se si traspongono in forma grafica i valori di X e Y, viene visualizzata una mappa che indica il percorso effettuato dall'auto. È immediatamente ovvio che l'auto ha guidato in cerchio e che a un certo punto ha guidato fino al centro del cerchio.
I grafici non sono limitati a grafici a dispersione 2D come quelli precedenti. Possono essere usati per esplorare altri aspetti dei dati; ad esempio le proporzioni (grafici a torta e grafici a barre in pila) e il modo in cui i dati vengono distribuiti (istogrammi e tracciati a scatola e baffi). Spesso, quando si cerca di capire meglio risultati o dati non elaborati, è possibile sperimentare l'uso di diversi tipi di grafici fino a quando non se ne trova uno che illustra i dati in modo visivamente intuitivo.