Wizualizowanie danych
Analitycy danych wizualizować dane, aby lepiej je zrozumieć. Mogą skanować nieprzetworzone dane, badać miary podsumowania, takie jak średnie lub grafować dane. Grafy to zaawansowany sposób wizualizowania danych, a analitycy danych często używają wykresów do szybkiego rozpoznawania umiarkowanie złożonych wzorców.
Reprezentacja danych wizualnie
Grafowanie jest wykonywane w celu zapewnienia szybkiej jakościowej oceny naszych danych, co może być przydatne do zrozumienia wyników, znalezienia wartości odstających, zbadania sposobu dystrybucji liczb itd.
Chociaż czasami wiemy z wyprzedzeniem, jaki rodzaj grafu będzie najbardziej przydatny, czasami używamy grafów w eksploracyjny sposób. Aby zrozumieć możliwości wizualizacji danych, rozważ następujące dane: lokalizację (x,y) samochodu samojezdnego. W postaci pierwotnej danych trudno jest zobaczyć wszelkie rzeczywiste wzorce. Średnia lub średnia informuje nas, że ścieżka samochodu była wyśrodkowana wokół x=0,2 i y=0,3, a zakres liczb wydaje się wynosić od około -2 do 2.
Czas | Lokalizacja-X | Lokalizacja-Y |
---|---|---|
0 | 0 | 2 |
1 | 1.682942 | 1.080605 |
2 | 1.818595 | -0.83229 |
3 | 0.28224 | -1.97998 |
100 | -1.5136 | -1.30729 |
5 | -1.91785 | 0.567324 |
6 | -0.55883 | 1.920341 |
7 | 1.313973 | 1.507805 |
12 | 0.00001 | 0.00001 |
13 | 0.840334 | 1.814894 |
14 | 1.981215 | 0.273474 |
15 | 1.300576 | -1.51938 |
16 | -0.57581 | -1.91532 |
17 | -1.92279 | -0.55033 |
18 | -1.50197 | 1.320633 |
19 | 0.299754 | 1.977409 |
20 | 1.825891 | 0.816164 |
Jeśli teraz wykreślimy wartość Location-X z upływem czasu, możemy zobaczyć, że mamy brakujące wartości z przedziału od 7 do 12.
Jeśli grafu X i Y, kończymy się mapą miejsca, w którym samochód jechał. To natychmiast oczywiste, że samochód jechał w kółko i w pewnym momencie pojechał do środka tego koła.
Wykresy nie są ograniczone do wykresów punktowych 2D, takich jak te powyżej. Mogą one służyć do eksplorowania innych aspektów danych; na przykład proporcje (wykresy kołowe i skumulowane wykresy słupkowe) oraz sposób rozprzestrzeniania się danych (histogramy i wykresy wąsowe typu box-and-whisker). Często, gdy próbujemy zrozumieć nieprzetworzone dane lub wyniki, możemy eksperymentować z różnymi typami grafów, dopóki nie napotkamy takiego, który wyjaśnia dane w wizualnie intuicyjny sposób.