浏览聚类分析模型(数据挖掘基础教程)
Microsoft 聚类分析算法将事例分组为包含类似特征的分类。 在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。
Microsoft 分类查看器提供了以下选项卡,用于浏览聚类分析挖掘模型:
分类关系图
分类剖面图
分类特征
分类对比
以下部分介绍如何选择适当的查看器以及如何浏览其他挖掘模型。
“分类关系图”选项卡
“分类关系图”选项卡显示挖掘模型中的所有分类。 分类之间的线条表示“接近程度”,其明暗度取决于分类之间的相似程度。 每个分类的实际颜色表示分类中变量和状态的出现频率。
在“分类关系图”选项卡中浏览模型
使用**“挖掘模型查看器”选项卡顶部的“挖掘模型”**列表,可切换到 TM_Clustering 模型。
在**“查看器”列表中,选择“Microsoft 分类查看器”**。
在**“明暗度变量”**框中,选择 Bike Buyer。
默认变量是 Population,但可将其更改为模型中的任意属性,以发现其包含的成员具有所需属性的分类。
在**“状态”**框中选择 1,可以浏览那些购买自行车的事例。
**“密度”**图例描述了在“明暗度变量”和“状态”中选定的属性状态对的密度。 在此示例中,明暗度最深的分类就是自行车购买者百分比最高的分类。
将鼠标悬停在明暗度最深的分类上。
工具提示将显示具有 Bike Buyer = 1 属性的事例所占的百分比。
选择密度最高的分类,右键单击该分类,然后选择**“重命名分类”**并键入“Bike Buyers High”以用作日后标识。 单击“确定”。
查找明暗度最浅(也就是密度最低)的分类。 右键单击该分类,然后选择**“重命名分类”**并键入“Bike Buyers Low”。 单击“确定”。
单击 Bike Buyers High 分类,并将其拖到窗格的适当区域,以便清楚地查看它与其他分类的连接。
选择某个分类时,将此分类连接到其他分类的线条将突出显示,以便您方便地查看此分类的所有关系。 如果该分类处于未选定状态,则可以通过线条的暗度来确定关系图中所有分类之间关系的紧密程度。 如果明暗度较浅或无明暗度,则表示分类的相似程度较低。
使用网络左侧的滑块,可筛选掉强度较低的链接,找出关系最接近的分类。 Adventure Works Cycles 市场部可能希望将相似的分类组合在一起,以便确定提供目标邮件的最佳方法。
返回页首
“分类剖面图”选项卡
**“分类剖面图”**选项卡提供 TM_Clustering 模型的总体视图。 **“分类剖面图”选项卡对于模型中的每个分类都包含一列。 第一列列出至少与一个分类关联的属性。 查看器的其余部分包含每个分类的某个属性的状态分布。 离散变量的分布以彩色条显示,最大条数在“直方图条”**列表中显示。 连续属性以菱形图显示,表示每个分类中的平均偏差和标准偏差。
在“分类剖面图”选项卡中浏览模型
将**“直方图”**条数设置为 5。
在我们的模型中,任意一个变量的最大状态数均为 5。
如果**“挖掘图例”妨碍了“属性配置文件”**的显示,请移开图例。
选择 Bike Buyers High 列,并将其拖到 Population 列的右侧。
选择 Bike Buyers Low 列,并将其拖到 Bike Buyers High 列的右侧。
单击 Bike Buyers High 列。
**“变量”**列按照其对该分类的重要性来进行排序。 滚动浏览该列,查看 Bike Buyer High 分类的特征。 例如,他们上下班路程较短的可能性较大。
双击 Bike Buyers High 列中的 Age 单元格。
**“挖掘图例”**显示更详细的视图,您可以看到这些客户的年龄范围,也可以看到他们的平均年龄。
右键单击 Bike Buyers Low 列并选择**“隐藏列”**。
返回页首
“分类特征”选项卡
使用**“分类特征”选项卡,您可以更加详细地检查组成分类的特征。 您可以一次浏览一个分类,而不是比较所有分类的特征(就像在“分类剖面图”选项卡中那样)。 例如,如果从“分类”**列表中选择 Bike Buyers High,则可以看到此分类中的客户的特征。 尽管显示方式与分类剖面图查看器不同,但查找结果却是相同的。
注意 |
---|
除非设置了 holdoutseed 的初始值,否则在您每次处理模型时,结果都会有所不同。 有关详细信息,请参阅 HoldoutSeed 元素。 |
返回页首
“分类对比”选项卡
使用**“分类对比”选项卡,可以浏览区分分类的特征。 当您从“分类 1”和“分类 2”**列表中各选择一个分类后,查看器会计算这两个分类之间的区别,并显示各分类最独特的属性的列表。
在“分类对比”选项卡中浏览模型
在**“分类 1”**框中,选择 Bike Buyers High。
在**“分类 2”**框中,选择 Bike Buyers Low。
单击**“变量”**按字母顺序排序。
Bike Buyers Low 和 Bike Buyers High 分类中的客户之间的其他一些显著差异包括年龄、汽车拥有情况、子女数量和所在地区。