内容类型(数据挖掘)
在 Microsoft SQL Server 2005 Analysis Services (SSAS) 中,可以定义挖掘结构中各列的数据类型,以便影响创建挖掘模型时算法对这些列中数据的处理方式。不过,定义列数据类型只向算法提供有关列中数据的类型的信息,而不提供有关该数据的行为的信息。因此,Analysis Services 中的每个数据挖掘数据类型都支持一种或多种内容类型,可以使用这些内容类型来说明列包含的内容的行为。例如,如果列内容以特定的间隔(如一周中的某几天)重复,则可以将该列的内容类型指定为循环。
下表介绍了 Analysis Services 中的内容类型,并标识了支持每种类型的数据类型。除了此处列出的内容类型以外,还可以使用已分类列定义某些数据类型的内容类型。有关已分类列的详细信息,请参阅已分类列。有关数据类型的详细信息,请参阅数据类型(数据挖掘)。
DISCRETE
该列包含离散值。例如,性别列是一个典型的离散属性列,这是因为该数据表示一个有限的可数数目的性别类别。离散属性列中的值即使是数值类型,也不意味着是有序数据;这些值是明确独立的,且不可能为小数值。电话区号即为数值离散数据的典型示例。
Analysis Services 中的所有数据挖掘数据类型均支持此内容类型。
CONTINUOUS
该列包含表示一组连续数值数据的值。与表示有限、可数数据的离散列不同,连续列表示度量数据,且数据可能包含无限数目的小数值。收入列即为连续属性列的示例。
以下数据类型支持此内容类型:Date、Double 和 Long。
DISCRETIZED
该列包含表示组或存储桶的值,这些值属于从连续列派生的值。存储桶被视为有序的离散值。有关使数据离散化的详细信息,请参阅离散化方法。
以下数据类型支持此内容类型:Date、Double、Long 和 Text。
KEY
该列唯一地标识一行。
以下数据类型支持此内容类型:Date、Double、Long 和 Text。
KEY SEQUENCE
该列是一个特定类型的键,其中的值表示一个事件序列。这些值是有序值,并且不必按等差排列。
以下数据类型支持此内容类型:Date、Double、Long 和 Text。
KEY TIME
该列是一个特定类型的键,其中的值表示有序并按时间尺度出现的值。
以下数据类型支持此内容类型:Date、Double 和 Long。
ORDERED
该列包含定义有序集的值。不过,有序集并不表示在该集的值之间存在任何差或量级关系。例如,如果有序属性列包含按照等级顺序从一到五排列的有关技术等级的信息,则技术等级之间的差并不包含什么暗示信息;技术等级五不一定比技术等级一好五倍。
有序属性列就内容类型而言是离散的。
Analysis Services 中所有的数据挖掘数据类型都支持此内容类型。
CYCLICAL
该列包含表示循环有序集的值。例如,一周内顺序编号的七天便是循环有序集,因为第一天紧跟第七天。
循环列就内容类型而言既有序又离散。
Analysis Services 中所有的数据挖掘数据类型都支持此内容类型。