Wizualizowanie danych

Ukończone

Analitycy danych wizualizować dane, aby lepiej je zrozumieć. Mogą skanować nieprzetworzone dane, badać miary podsumowania, takie jak średnie lub grafować dane. Grafy to zaawansowany sposób wizualizowania danych, a analitycy danych często używają wykresów do szybkiego rozpoznawania umiarkowanie złożonych wzorców.

Reprezentacja danych wizualnie

Grafowanie jest wykonywane w celu zapewnienia szybkiej jakościowej oceny naszych danych, co może być przydatne do zrozumienia wyników, znalezienia wartości odstających, zbadania sposobu dystrybucji liczb itd.

Chociaż czasami wiemy z wyprzedzeniem, jaki rodzaj grafu będzie najbardziej przydatny, czasami używamy grafów w eksploracyjny sposób. Aby zrozumieć możliwości wizualizacji danych, rozważ następujące dane: lokalizację (x,y) samochodu samojezdnego. W postaci pierwotnej danych trudno jest zobaczyć wszelkie rzeczywiste wzorce. Średnia lub średnia informuje nas, że ścieżka samochodu była wyśrodkowana wokół x=0,2 i y=0,3, a zakres liczb wydaje się wynosić od około -2 do 2.

Czas Lokalizacja-X Lokalizacja-Y
0 0 2
1 1.682942 1.080605
2 1.818595 -0.83229
3 0.28224 -1.97998
100 -1.5136 -1.30729
5 -1.91785 0.567324
6 -0.55883 1.920341
7 1.313973 1.507805
12 0.00001 0.00001
13 0.840334 1.814894
14 1.981215 0.273474
15 1.300576 -1.51938
16 -0.57581 -1.91532
17 -1.92279 -0.55033
18 -1.50197 1.320633
19 0.299754 1.977409
20 1.825891 0.816164

Jeśli teraz wykreślimy wartość Location-X z upływem czasu, możemy zobaczyć, że mamy brakujące wartości z przedziału od 7 do 12.

Wykres współrzędnych Location-X wykreślił względem czasu.

Jeśli grafu X i Y, kończymy się mapą miejsca, w którym samochód jechał. To natychmiast oczywiste, że samochód jechał w kółko i w pewnym momencie pojechał do środka tego koła.

Wykres współrzędnych Location-X i Location-Y nakreślonych.

Wykresy nie są ograniczone do wykresów punktowych 2D, takich jak te powyżej. Mogą one służyć do eksplorowania innych aspektów danych; na przykład proporcje (wykresy kołowe i skumulowane wykresy słupkowe) oraz sposób rozprzestrzeniania się danych (histogramy i wykresy wąsowe typu box-and-whisker). Często, gdy próbujemy zrozumieć nieprzetworzone dane lub wyniki, możemy eksperymentować z różnymi typami grafów, dopóki nie napotkamy takiego, który wyjaśnia dane w wizualnie intuicyjny sposób.