簡介

已完成

機器學習的預測能力來自於形塑之的資料。 若要建置有效的模型,您必須了解所使用的資料。

在這裡,我們會探索人類和電腦如何分類、儲存和解譯資料。 我們會檢查什麼可形成良好的資料集,以及如何修正可用資料中的問題。 我們也會練習探索新資料,並了解深入考量資料集如何協助我們建立更好的預測性模型。

案例:鐵達尼號的最後一次航行

作為熱切的航海考古學家,您對海上災難有很大的興趣。 某天夜裡,當您從鯨魚骨頭影像點擊到有關亞特蘭提斯的古代捲軸影像時,您發現了一個公用資料集,其中列出鐵達尼號第一次 (也是最後一次) 航行的已知乘客和船員。 受到在命運與機會之間擺盪結果所吸引,您陷入深思:哪些因素決定了鐵達尼號乘客的存活率? 此期間的資料有些不完整。 某些乘客的很多資訊都是未知的。 您必須先找到填補此資料的方式,才能完整分析資料。

必要條件

  • 熟悉機器學習概念 (例如模型和成本) 會有幫助,但並非必要。

學習目標

在本單元中,您將:

  • 使用探索式資料分析 (EDA) 將大型資料集視覺化。
  • 清除資料集中的錯誤。
  • 使用數值和分類資料預測未知的值。