使用增益圖測試精確度 (基本資料採礦教學課程)
在資料採礦Designer的 [採礦精確度圖表] 索引標籤上,您可以計算每個模型進行預測的程度,並直接比較每個模型的結果與其他模型的結果。 這種比較方法稱為 增益圖。 一般來說,採礦模型的預測精確度是由「增益」(Lift) 或分類精確度所衡量。 在此教學課程中,我們只會使用增益圖。
本主題中,您將會執行下列工作:
選擇輸入資料
若要測試採礦模型的精確度,第一個步驟就是要選取您將用於測試的資料來源。 您將會對照測試資料來測試模型的執行效果,然後搭配外部資料來使用模型。
若要選取資料集
切換至 SQL SERVER DATA TOOLS (SSDT) 中資料採礦Designer的[採礦精確度圖表] 索引標籤,然後選取 [輸入選取範圍] 索引標籤。
在 [ 選取要用於精確度圖表的資料集] 群組 框中,選取 [使用採礦結構測試案例]。 這是您在建立採礦結構時擱置在一旁的測試資料。
如需其他選項的詳細資訊,請參閱 選擇精確度圖表類型和設定圖表選項。
設定精確度圖表參數
若要建立精確度圖表,您必須定義三件事:
精確度圖表中應該納入哪些模型?
您要測量哪些可預測屬性? 某些模型可能會有多個目標,但是每個圖表一次只能測量一項結果。
若要使用資料行作為精確度圖表中的可預測資料行名稱,資料行必須具有 或
Predict Only
的使用類型Predict
。 此外,目標資料行的內容類型必須為Discrete
或Discretized
。 換句話說,您無法使用增益圖測量連續數值輸出的精確度。您要測量模型的一般精確度,或預測特定值 (的正確性,例如 [Bike Buyer] = 'Yes')
產生增益圖
在 [資料採礦] Designer的 [輸入選取範圍]索引標籤上,于[選取可預測的採礦模型資料行] 底下顯示于增益圖中,選取[同步處理預測資料行和值] 核取方塊。
在 [ 可預測資料行名稱 ] 資料行中,確認已針對每個模型選取 Bike Buyer 。
在 [ 顯示] 資料行中,選取每個模型。
依預設,會選取採礦結構中所有的模型。 您可以決定不加入某個模型,但在本教學課程中,則是維持選取所有模型。
在 [ 預測值] 資料行中,選取 [1]。 系統會針對具有相同可預測資料行的每個模型,自動填入相同的值。
選取 [增益圖] 索引標籤 。
當您按一下此索引標籤時,預測查詢會隨即執行以取得測試資料的預測,且結果將與已知值做比較。 結果會繪製在圖形上。
如果您使用 [預測值 ] 選項指定特定的目標結果,增益圖會繪製隨機猜測的結果和理想模型的結果。
隨機猜測線條將顯示模型在沒有使用任何資料做預測時的精確度:即兩項結果彼此間為 50-50 均分。 增益圖可協助您從視覺上了解模型的執行效益與隨機猜測相比高出多少。
理想模型線條代表精確度的上限。 此線條顯示了當模型始終都能準確預測時,可能達到的最大效益。
您所建立的採礦模型通常會介於這兩種極端之間。 隨機猜測的任何改善都會被視為 隨即提升。
使用圖例可找出代表理想的模型與隨機猜測模型的有色線條。
您會注意到
TM_Decision_Tree
模型提供最大的增益,讓叢集和貝氏機率分類模型都表現得不盡。
如需類似本課程所建立的增益圖的深入說明,請參閱 增益圖 (Analysis Services - 資料採礦) 。