測試與驗證 (資料採礦)
適用於: SQL Server 2019 和舊版 Analysis Services Azure Analysis Services Fabric/Power BI Premium
重要
SQL Server 2017 Analysis Services 中已淘汰數據採礦,現在已在 SQL Server 2022 Analysis Services 中停止。 檔不會更新為已淘汰和已停止的功能。 若要深入瞭解,請參閱 Analysis Services 回溯相容性。
驗證是評估採礦模型對實際數據執行效能的程式。 請務必先了解採礦模型的品質和特性,再將其部署至生產環境。
本節介紹一些與模型品質相關的基本概念,並說明MICROSOFT SQL Server Analysis Services 中提供的模型驗證策略。 如需模型驗證如何融入較大數據採礦程式的概觀,請參閱 數據採礦解決方案。
測試及驗證數據採礦模型的方法
有許多方法可用來評估數據採礦模型的品質和特性。
使用各種統計有效性量值來判斷數據或模型中是否有問題。
將數據分成定型和測試集,以測試預測的正確性。
要求商務專家檢閱數據採礦模型的結果,以判斷探索到的模式在目標商務案例中是否具有意義
所有這些方法在數據採礦方法中都很有用,而且會在您建立、測試和精簡模型時反覆使用,以回答特定問題。 沒有單一完整規則可以告訴您模型是否足夠好,或當您有足夠的數據時。
驗證數據採礦模型的準則定義
數據採礦的量值通常屬於精確度、可靠性和實用性的類別。
精確度 是衡量模型如何與已提供之數據中的屬性相互關聯的結果。 精確度有各種量值,但所有精確度量值都相依於所使用的資料。 實際上,值可能遺失或近似值,或數據可能已由多個進程變更。 特別是在探索和開發階段,您可能會決定接受數據中的一定數量錯誤,特別是當數據在其特性中相當一致時。 例如,根據過去銷售預測特定商店銷售額的模型,即使該商店一直使用錯誤的會計方法,仍可能具有很強的關聯性且非常準確。 因此,精確度的測量必須透過可靠性評估來平衡。
可靠性 評估數據採礦模型在不同數據集上執行的方式。 如果數據採礦模型產生相同類型的預測,或尋找相同的一般模式類型,不論所提供的測試數據為何,數據採礦模型都是可靠的。 例如,您針對使用錯誤會計方法的市集所產生的模型,不會將良好地一般化至其他存放區,因此不可靠。
實用 包含各種計量,告訴您模型是否提供有用的資訊。 例如,將商店位置與銷售相互關聯的數據採礦模型可能既準確又可靠,但可能不實用,因為您無法在相同位置新增更多商店來將結果一般化。 此外,它並沒有回答為什麼某些地點有更多的銷售的基本商業問題。 您也可能發現,實際上顯示成功的模型毫無意義,因為它是以數據中的相互關聯為基礎。
用於測試和驗證採礦模型的工具
SQL Server Analysis Services 支援多種驗證數據採礦解決方案的方法,支援數據採礦測試方法的所有階段。
將數據分割成測試和定型集。
篩選模型,以定型和測試相同源數據的不同組合。
測量 增益 和 增益。 當您比較數據採礦模型時,增益圖 是可視化您從使用數據採礦模型取得的改進方法。
執行數據集 交叉驗證
產生
分類矩陣。 這些圖表會將良好和錯誤的猜測排序到數據表中,以便您快速且輕鬆地量測模型預測目標值的方式。 建立
散佈圖,以評估回歸公式的大小。 建立 收益圖表 將財務收益或成本與採礦模型的使用產生關聯,以便評估建議的值。
這些計量的目的不是回答數據採礦模型是否回答您的商務問題的問題:相反地,這些計量會提供客觀測量,讓您可用來評估數據的可靠性以進行預測性分析,並引導您決定是否要使用特定反覆運算開發程式。
本節中的主題提供每個方法的概觀,並逐步引導您完成測量您使用 SQL Server 數據採礦所建置之模型精確度的程式。
相關主題
主題 | 連結 |
---|---|
瞭解如何使用精靈或 DMX 命令設定測試數據集 | 定型及測試數據集 |
瞭解如何測試採礦結構中數據的分佈和代表性 | 交叉驗證 (Analysis Services - 數據採礦) |
瞭解提供的精確度圖表類型。 |
增益圖 (Analysis Services - 數據採礦) 收益圖 (Analysis Services - 數據採礦) 散佈圖 (Analysis Services - 數據採礦) |
瞭解如何建立分類矩陣,有時稱為混淆矩陣,以評估真和誤判和負數的數目。 | 分類矩陣 (Analysis Services - 數據採礦) |