Microsoft 线性回归算法

Microsoft 线性回归算法是 Microsoft 决策树算法的变体,其中的 MINIMUM_LEAF_CASES 参数设置为大于或等于算法为挖掘模型定型时所用的数据集中的事例总数。通过以这种方式设置该参数,算法将绝不创建拆分,从而执行线性回归。

可以使用线性回归确定两个连续列之间的关系。该关系采用的表示形式是最能代表数据序列的线的公式。例如,以下关系图中的线是数据最可能的线性表示形式。

模拟一组数据的线

表示该关系图中的线的公式采用了 y = ax + b 这个一般形式,该公式称为回归公式。变量 Y 表示输出变量,X 表示输入变量,ab 是可调整系数。关系图中的每个数据点都有一个与该数据点与回归线之间距离关联的错误。回归方程式中的系数 ab 可以调整回归线的角度和位置。可以调整 ab,直到与点关联的错误总数达到最低数目,以此获得回归方程式。

使用算法

使用 Microsoft 树查看器可以浏览线性回归挖掘模型。

一个线性回归模型必须包含一个键列、输入列和至少一个可预测列。

Microsoft 线性回归算法支持特定的输入列内容类型、可预测列内容类型和建模标志,这些类型和标记如下表所列。

输入列内容类型

Continuous、Cyclical、Key、Table 和 Ordered

可预测列内容类型

Continuous、Cyclical 和 Ordered

建模标志

NOT NULL 和 REGRESSOR

所有 Microsoft 算法均支持一些通用的函数。但是,Microsoft 线性回归算法还支持下表所列的其他函数。

IsDescendant

PredictStdev

IsInNode

PredictSupport

PredictHistogram

PredictVariance

PredictNodeId

   

有关对所有 Microsoft 算法都通用的函数列表,请参阅数据挖掘算法。有关如何使用这些函数的详细信息,请参阅数据挖掘扩展插件 (DMX) 函数参考

Microsoft 线性回归算法支持多个参数,这些参数可以影响生成的挖掘模型的性能和准确性。下表对各参数进行了说明:

参数 说明

MAXIMUM_INPUT_ATTRIBUTES

定义算法在调用功能选择之前可以处理的输入属性数。如果将此值设置为 0,则表示关闭功能选择。

默认值为 255。

MAXIMUM_OUTPUT_ATTRIBUTES

定义算法在调用功能选择之前可以处理的输出属性数。如果将此值设置为 0,则表示关闭功能选择。

默认值为 255。

FORCED_REGRESSOR

强制算法将指示的列用作回归量,而不考虑算法计算出的列的重要性。

请参阅

概念

数据挖掘算法
数据挖掘向导
数据挖掘中的功能选择
使用 Microsoft 树查看器查看挖掘模型

其他资源

CREATE MINING MODEL (DMX)

帮助和信息

获取 SQL Server 2005 帮助