了解資料集

發行項
09/03/2024

機器學習模型向定型資料中擷取的歷史決策和動作「學習」。因此，在真實情節中的表現深受定型資料所影響。當資料集的特徵分佈扭曲時，可能導致模型不正確預測屬於代表性不足群組的資料點，或根據不適當的計量來最佳化。

例如，當模型定型 AI 系統以預測房屋價格時，訓練集卻代表 75% 的新成屋，且其價格低於中位數。這樣一來，就難以精確找出較貴的中古屋。修正方法是將較舊且昂貴的房屋加入定型資料，並擴大特徵以納入中古屋價值的見解。這種資料增強方式即可改善結果。

負責任 AI 儀表板的資料分析元件可根據預測和實際結果、誤差群組及具體特徵，協助將資料集視覺化。這有助於找出代表性過度與不足的問題，並了解資料如何群集在資料集。資料視覺效果由彙總圖或個別資料點組成。

使用資料分析的時機

當您需要進行下列作業時，請使用資料分析：

選取各種篩選條件將資料切割成不同的維度 (也稱為世代)，以探索資料集統計資料。
了解資料集在不同世代和特徵群之間的分佈。
判斷資料集的分佈是否影響您對公平性、錯誤分析和因果關係 (衍生自其他儀表板元件) 的調查結果。
決定在哪些方面收集更多資料，以減輕由代表性問題、標籤雜訊、特徵雜訊、標籤偏差等類似因素所引起的誤差。

下一步

了解如何透過 CLI 和 SDK 或 Azure Machine Learning 工作室 UI 產生負責任 AI 儀表板。
探索負責任 AI 儀表板支援的資料分析視覺效果。
了解如何根據負責任 AI 儀表板中觀察到的見解來產生負責任 AI 計分卡。