了解資料集
機器學習模型向定型資料中擷取的歷史決策和動作「學習」。 因此,在真實情節中的表現深受定型資料所影響。 當資料集的特徵分佈扭曲時,可能導致模型不正確預測屬於代表性不足群組的資料點,或根據不適當的計量來最佳化。
例如,當模型定型 AI 系統以預測房屋價格時,訓練集卻代表 75% 的新成屋,且其價格低於中位數。 這樣一來,就難以精確找出較貴的中古屋。 修正方法是將較舊且昂貴的房屋加入定型資料,並擴大特徵以納入中古屋價值的見解。 這種資料增強方式即可改善結果。
負責任 AI 儀表板的資料分析元件可根據預測和實際結果、誤差群組及具體特徵,協助將資料集視覺化。 這有助於找出代表性過度與不足的問題,並了解資料如何群集在資料集。 資料視覺效果由彙總圖或個別資料點組成。
使用資料分析的時機
當您需要進行下列作業時,請使用資料分析:
- 選取各種篩選條件將資料切割成不同的維度 (也稱為世代),以探索資料集統計資料。
- 了解資料集在不同世代和特徵群之間的分佈。
- 判斷資料集的分佈是否影響您對公平性、錯誤分析和因果關係 (衍生自其他儀表板元件) 的調查結果。
- 決定在哪些方面收集更多資料,以減輕由代表性問題、標籤雜訊、特徵雜訊、標籤偏差等類似因素所引起的誤差。
下一步
- 了解如何透過 CLI 和 SDK 或 Azure Machine Learning 工作室 UI 產生負責任 AI 儀表板。
- 探索負責任 AI 儀表板支援的資料分析視覺效果。
- 了解如何根據負責任 AI 儀表板中觀察到的見解來產生負責任 AI 計分卡。