Visualización de datos
Los científicos de datos visualizan los datos para comprenderlos mejor. Pueden examinar los datos sin procesar, examinar medidas de resumen como promedios o representar los datos. Los gráficos son un medio eficaz de visualizar datos y los científicos de datos suelen usar gráficos para distinguir rápidamente patrones moderadamente complejos.
Representación visual de los datos
Los gráficos se usan para proporcionar una evaluación cualitativa rápida de nuestros datos, que puede ser útil para entender los resultados, encontrar valores atípicos, examinar cómo se distribuyen los números, etc.
Aunque a veces sabemos de antemano qué tipo de gráfico será más útil, otras veces utilizamos los gráficos de forma exploratoria. Para entender el poder de la visualización de datos, considere los datos siguientes: la ubicación (x,y) de un coche que se conduce automáticamente. Es difícil ver patrones reales en la forma sin procesar de los datos. La media o promedio, nos dice que la trayectoria del coche giró en torno a x=0,2 e y=0,3, y el intervalo de números parece estar entre -2 y 2 aproximadamente.
Time | Ubicación X | Ubicación Y |
---|---|---|
0 | 0 | 2 |
1 | 1,682942 | 1,080605 |
2 | 1,818595 | -0,83229 |
3 | 0,28224 | -1,97998 |
4 | -1,5136 | -1,30729 |
5 | -1,91785 | 0,567324 |
6 | -0,55883 | 1,920341 |
7 | 1,313973 | 1,507805 |
12 | 0,00001 | 0,00001 |
13 | 0,840334 | 1,814894 |
14 | 1,981215 | 0,273474 |
15 | 1,300576 | -1,51938 |
16 | -0,57581 | -1,91532 |
17 | -1,92279 | -0,55033 |
18 | -1,50197 | 1,320633 |
19 | 0,299754 | 1,977409 |
20 | 1,825891 | 0,816164 |
Si ahora trazamos la ubicación X a lo largo del tiempo, podemos ver que parece que tenemos algunos valores perdidos entre los tiempos 7 y 12.
Si trazamos X frente a Y, terminamos con un mapa de por donde se ha movido el coche. Es inmediatamente obvio que el coche ha estado moviéndose en círculos, pero en algún momento se desplazó hacia el centro de ese círculo.
Los gráficos no se limitan a los diagramas de dispersión en 2D como estos. Se pueden usar para explorar otros aspectos de los datos, por ejemplo, proporciones (gráficos circulares y gráficos de barras apiladas) y cómo se propagan los datos (histogramas y diagramas de distribución de datos). A menudo, cuando intentamos comprender datos o resultados sin procesar, podemos experimentar con diferentes tipos de gráficos hasta dar con uno que explique los datos de forma visualmente intuitiva.