Visualisieren von Daten
Data Scientists visualisieren Daten, um sie besser zu verstehen. Sie können die Rohdaten überprüfen, zusammenfassende Kennzahlen wie z. B Durchschnittswerte untersuchen oder die Daten grafisch darstellen. Diagramme sind ein wirkungsvolles Mittel zur Visualisierung von Daten, und Data Scientists verwenden Diagramme häufig, um Muster von mittlerer Komplexität schnell erkennen zu können.
Visuelle Darstellung von Daten
Die grafische Darstellung dient dazu, eine schnelle qualitative Bewertung unserer Daten zu ermöglichen. Dies kann beim Verständnis der Ergebnisse, beim Auffinden von Ausreißerwerten, bei der Untersuchung der Zahlenverteilung usw. nützlich sein.
Manchmal wissen wir zwar im Voraus, welche Art von Diagramm am nützlichsten sein wird, aber manchmal verwenden wir Graphen zu Erkundungszwecken. Sehen Sie sich die folgenden Daten an, um die Leistungsfähigkeit der Datenvisualisierung zu verstehen: den Standort (x, y) eines selbstfahrenden Autos. Im Rohformat ist es schwierig, in den Daten echte Muster zu erkennen. Der Mittel- oder Durchschnittswert gibt an, dass der Pfad um x=0,2 und y=0,3 zentriert war, und der Zahlenbereich scheint zwischen -2 und 2 zu liegen.
Time | Standort-X | Standort-Y |
---|---|---|
0 | 0 | 2 |
1 | 1,682942 | 1,080605 |
2 | 1,818595 | -0,83229 |
3 | 0,28224 | -1,97998 |
4 | -1,5136 | -1,30729 |
5 | -1,91785 | 0,567324 |
6 | -0,55883 | 1,920341 |
7 | 1,313973 | 1,507805 |
12 | 0,00001 | 0,00001 |
13 | 0,840334 | 1,814894 |
14 | 1,981215 | 0,273474 |
15 | 1,300576 | -1,51938 |
16 | -0,57581 | -1,91532 |
17 | -1,92279 | -0,55033 |
18 | -1,50197 | 1,320633 |
19 | 0,299754 | 1,977409 |
20 | 1,825891 | 0,816164 |
Wenn wir jetzt Standort-X über der Zeit zeichnen, sehen wir, dass zwischen den Zeiten 7 und 12 einige Werte zu fehlen scheinen.
Wenn wir X gegen Y auftragen, erhalten wir eine Karte, die den Fahrweg des Autos zeigt. Es ist sofort ersichtlich, dass das Auto sich im Kreis bewegt hat und schließlich in den Mittelpunkt dieses Kreises gefahren ist.
Diagramme sind nicht auf 2D-Punktdiagramme wie die oben gezeigten beschränkt. Damit können andere Aspekte Ihrer Daten untersucht werden, z. B. Verhältnisse mittels Kreisdiagrammen und gestapelte Balkendiagrammen und die Verteilung der Daten mithilfe von Histogrammen und Box-Whisker-Plots. Wenn Sie Rohdaten oder Ergebnisse verstehen möchten, können Sie mit verschiedenen Arten von Graphen experimentieren, bis Sie auf einen stoßen, mit dem die Daten auf visuell intuitive Weise dargestellt werden.