驗證資料採礦模型
您可以使用資料採礦設計師的 [採礦精確度圖表] 索引標籤,來驗證精確度和比較採礦結構中各採礦模型的預測能力。當您想要選擇正確的演算法來使用或選擇如何調整個別演算法內的參數時,這樣做很有用。
驗證是資料採礦處理中的一個重要步驟。在將模型部署到實際環境之前,瞭解採礦模型對實際資料的執行效能有多好很重要。如需有關模型驗證如何在較大的資料採礦處理中配合的詳細資訊,請參閱<資料採礦概念>。
驗證工具
[採礦精確度圖表] 索引標籤,會提供用來驗證採礦模型的下列工具:
- 增益圖
- 分類矩陣
增益圖
增益圖的建立方式是繪出測試資料集的預測查詢結果,來對照資料集現有的可預測資料行的已知值。下列圖表提供這類圖表的範例。
此圖表顯示一條線代表採礦模型的結果,並顯示另外兩條線:一條線代表理想模型會產生的結果,其完美預測絕不出錯,還有一條代表隨機猜測的結果。模型的結果將落在理想模型和隨機猜測之間的範圍內。隨機線的任何改進稱為增益,而模型展示的增益越多,表示模型越有效益。
從連續可預測屬性建立的增益圖會顯示散佈圖而非直線圖。
若要實作增益圖,您需要下列各項:
- 一或多個培訓的採礦模型
- 包含可預測資料行值的輸入資料集
- 輸入資料和採礦模型結構之間的對應
詳細資訊:採礦精確度圖表索引標籤的如何主題、資料行對應 (增益圖)、增益圖
回到頂端
分類矩陣
[分類矩陣] 索引標籤會提供另一個方式來檢查結構中的採礦模型建立預測的精確度。分類矩陣的建立是為了在測試資料集內的實際值與採礦模型預測的值兩者之間做比較。矩陣是重要的工具,因為它不只顯示模型正確地預測值的頻率,也顯示模型最常預測錯誤的其他值。
例如,假設已建構一個模型來預測某商店客戶所使用的會員卡類型。會員卡有三種:青銅卡、銀卡和金卡。下表代表模型的分類矩陣,它預測已知會員卡值的測試資料庫中的會員卡值。
青銅卡 | 銀卡 | 金卡 | |
---|---|---|---|
青銅卡 |
實際的 |
青銅卡的錯誤 |
青銅卡的錯誤 |
銀卡 |
銀卡的錯誤 |
實際的 |
銀卡的錯誤 |
金卡 |
金卡的錯誤 |
金卡的錯誤 |
實際的 |
從矩陣左上角到右下角以對角線執行的值,會提供實際存在於測試資料集內的正確值數目。矩陣中的資料行代表在測試資料集內已預測的項目。資料列代表存在於測試資料集內之屬性的實際狀態。
例如,請看採礦模型如何預測有青銅卡的客戶。[青銅卡] 資料行與 [青銅卡] 資料列交集的值,代表測試資料庫中擁有青銅卡之客戶的實際數目。[銀卡] 資料行和 [青銅卡] 資料列交集的值,代表不正確預測為銀卡 (但實際上是青銅卡) 的案例數目。青銅卡的不正確預測值數目等於 [青銅卡] 資料行和 [銀卡] 資料列以及 [青銅卡] 資料行和 [金卡] 資料列交集的總和。同樣的分析也適用於其他卡片類型。
詳細資訊:採礦精確度圖表索引標籤的如何主題、 資料行對應 (增益圖)、分類矩陣
回到頂端