顯現資料
資料科學家會將資料視覺化,以進一步了解。 他們可能會掃描原始資料、檢查摘要量值 (例如平均值),或者將資料繪製成圖表。 圖表是一種強大的視覺化資料的方式,資料科學家通常會使用圖表來快速辨識中等複雜的模式。
以視覺化方式表示資料
繪製圖表是為了提供資料的快速質化評量,這有助於了解結果、尋找極端值、檢查如何散發數字等等。
有時我們會事先知道哪種圖形最有用,其他時候我們會以探索方式使用圖形。 若要了解資料視覺效果的能力,請考量下列的資料:自動駕駛汽車的位置 (x,y)。 在資料的原始形式中,很難看出任何真正的模式。 平均或平均值,告訴我們汽車的路徑是在 x = 0.2 和 y = 0.3 之間,而數字的範圍似乎在大約 -2 和 2 之間。
Time | Location-X | Location-Y |
---|---|---|
0 | 0 | 2 |
1 | 1.682942 | 1.080605 |
2 | 1.818595 | -0.83229 |
3 | 0.28224 | -1.97998 |
4 | -1.5136 | -1.30729 |
5 | -1.91785 | 0.567324 |
6 | -0.55883 | 1.920341 |
7 | 1.313973 | 1.507805 |
12 | 0.00001 | 0.00001 |
13 | 0.840334 | 1.814894 |
14 | 1.981215 | 0.273474 |
15 | 1.300576 | -1.51938 |
16 | -0.57581 | -1.91532 |
17 | -1.92279 | -0.55033 |
18 | -1.50197 | 1.320633 |
19 | 0.299754 | 1.977409 |
20 | 1.825891 | 0.816164 |
如果我們現在繪製了一段時間的 Location-X,我們可以看到我們在時間 7 和 12 之間似乎有一些遺漏的值。
如果我們繪製 X 與 Y 的圖形,最後會有一個車輛行駛位置的地圖。 這會立即明顯地指出汽車繞圈行駛,而且在某個時間點會行駛到圓圈的中心。
圖表並不限於像上面那些的 2D 散佈圖。 它們可以用來探索資料的其他層面;例如,比例 (圓形圖和堆疊橫條圖) 以及資料的分佈情況 (直方圖和盒鬚圖)。 通常,當我們嘗試了解未經處理資料或結果時,我們可能會試驗不同類型的圖表,直到我們得到一個以視覺上直覺方式來說明資料的圖表為止。