验证数据挖掘模型
可以使用数据挖掘设计器的**“挖掘准确性图表”**选项卡来验证准确性并比较挖掘结构中的挖掘模型的预测能力。当您尝试选择要使用的正确算法或用于调整单个算法中参数的方法时,这将很有帮助。
验证是数据挖掘过程中的重要步骤。将挖掘模型部署到生产环境中之前,了解挖掘模型针对实际数据的性能很重要。有关模型验证如何适合更大数据挖掘过程的详细信息,请参阅数据挖掘概念。
验证工具
**“挖掘准确性图表”**选项卡提供以下用于验证挖掘模型的工具:
- 提升图
- 分类矩阵
提升图
提升图是通过绘制针对测试数据集进行的预测查询的结果(根据测试数据集中存在的可预测列的已知值)而创建的。以下关系图提供了此类图表的示例。
该图对挖掘模型的结果显示一条线,同时还显示其他两条线:一条线表示理想的模型会产生的结果,并带有永远不会错误的完美预测,一条线表示随机猜测的结果。模型的结果将位于理想模型和随机推测之间的某个位置。对随机行的任何改进称为“提升**”,且模型展示的提升越多,模型越有效。
从连续的可预测属性生成的提升图显示一个散点图而非线条。
若要实现一个提升图,您需要以下内容:
- 一个或多个已定型的挖掘模型
- 一个包含可预测列的值的输入数据集
- 输入数据与挖掘模型结构之间的映射
有关详细信息,请参阅“挖掘准确性图表”选项卡的操作指南主题、列映射(提升图)和提升图
返回页首
分类矩阵
**“分类矩阵”**选项卡提供了另一种用于检查结构中的挖掘模型创建预测的准确性的方法。分类矩阵是以比较(即测试数据集中存在的实际值与挖掘模型预测的值之间的比较)的形式生成的。该矩阵是一个重要的工具,因为它不仅显示模型正确预测值的频率,而且还显示模型最经常预测错的其他值。
例如,假定已经构建了一个模型来预测食品杂货店的客户使用的会员卡类型。卡有三种:铜卡、银卡和金卡。下表是根据测试数据库(其中的会员卡值是已知的)预测会员卡值的模型的分类矩阵表示形式。
Bronze | Silver | Gold | |
---|---|---|---|
Bronze |
实际数 |
实际为铜卡的错误数 |
实际为铜卡的错误数 |
Silver |
实际为银卡的错误数 |
实际数 |
实际为银卡的错误数 |
Gold |
实际为金卡的错误数 |
实际为金卡的错误数 |
实际数 |
从矩阵的左上角沿对角线运行到矩阵右下角的值提供了测试数据集中实际存在的正确值数。矩阵中的列表示测试数据集中已被预测的项。行表示测试数据集中存在的属性的实际状态。
例如,了解一下挖掘模型如何预测拥有铜卡的客户。Bronze 列和 Bronze 行的交叉值将表示测试数据库中拥有铜卡的客户的实际数目。Silver 列与 Bronze 行的交叉值将表示错误预测为 Silver 而实际上为 Bronze 的事例数目。Bronze 的错误预测值数将为 Bronze 列与 Silver 行的交叉以及 Bronze 列与 Gold 行的交叉总和。同样的分析也适用于其他卡类型。
有关详细信息,请参阅:“挖掘准确性图表”选项卡的操作指南主题、列映射(提升图)、分类矩阵
返回页首