Visualizar os dados
Os cientistas de dados visualizam os dados para entendê-los melhor. Eles podem digitalizar os dados brutos, examinar medidas resumidas, como médias, ou representar graficamente os dados. Os gráficos são um meio poderoso de visualizar dados, e os cientistas de dados geralmente usam gráficos para discernir padrões moderadamente complexos rapidamente.
Representando dados visualmente
A criação de gráficos é feita para fornecer uma avaliação qualitativa rápida de nossos dados, o que pode ser útil para entender os resultados, encontrar valores atípicos, examinar como os números são distribuídos e assim por diante.
Enquanto às vezes sabemos de antemão que tipo de gráfico será mais útil, outras vezes usamos gráficos de forma exploratória. Para entender o poder da visualização de dados, considere os seguintes dados: a localização (x,y) de um carro autônomo. Na forma bruta dos dados, é difícil ver padrões reais. A média ou média diz-nos que o percurso do carro estava centrado em torno de x=0,2 e y=0,3, e o intervalo de números parece estar entre cerca de -2 e 2.
Hora | Localização-X | Localização-Y |
---|---|---|
0 | 0 | 2 |
1 | 1.682942 | 1.080605 |
2 | 1.818595 | -0.83229 |
3 | 0.28224 | -1.97998 |
4 | -1.5136 | -1.30729 |
5 | -1.91785 | 0.567324 |
6 | -0.55883 | 1.920341 |
7 | 1.313973 | 1.507805 |
12 | 0.00001 | 0.00001 |
13 | 0.840334 | 1.814894 |
14 | 1.981215 | 0.273474 |
15 | 1.300576 | -1.51938 |
16 | -0.57581 | -1.91532 |
17 | -1.92279 | -0.55033 |
18 | -1.50197 | 1.320633 |
19 | 0.299754 | 1.977409 |
20 | 1.825891 | 0.816164 |
Se agora plotarmos a Localização-X ao longo do tempo, podemos ver que parecemos ter alguns valores ausentes entre os tempos 7 e 12.
Se fizermos um gráfico X versus Y, acabamos com um mapa de onde o carro dirigiu. É imediatamente óbvio que o carro estava dirigindo em círculo e, em algum momento, dirigiu-se para o centro desse círculo.
Os gráficos não se limitam a gráficos de dispersão 2D como os acima. Eles podem ser usados para explorar outros aspetos de seus dados; por exemplo, proporções (gráficos de pizza e gráficos de barras empilhadas) e como os dados são distribuídos (histogramas e gráficos de caixa e bigode). Muitas vezes, quando estamos tentando entender dados brutos ou resultados, podemos experimentar diferentes tipos de gráficos até nos depararmos com um que explique os dados de uma forma visualmente intuitiva.