多项式回归
到目前为止,我们仅了解了线性回归模型;即可以建模为直线的模型。 不过,回归模型可以与几乎任何其他类型的关系一起使用。
什么是多项式回归?
多项式回归将关系建模为特定类型的曲线。 多项式是一系列曲线,包括从简单到复杂的形状。 等式(模型)中的参数越多,曲线越复杂。
例如,双参数多项式只是一条直线:
y = 截距 + B1*x
而三参数多项式包含一个弯曲:
y = 截距 + B1*x + B2*x2
四参数多项式可以有两个弯曲:
y = 截距 + B1*x + B2*x2 + B3*x3
多项式与其他曲线
有多种曲线,如对数曲线和 logistic(S 形)曲线,它们均可与回归一起使用。
多项式回归的主要优点是它可用于发现所有类型的关系。 例如,多项式回归可用于在某些特征值范围内是负数、但在其他特征值范围内是正数的关系。 还可以在标签(y 值)没有理论上限的情况下使用。
多项式曲线的主要缺点是它们的推断效果通常较差。 换句话说,如果我们尝试预测大于或小于训练数据的值,多项式可能会预测不切实际的极端值。 另一个缺点是,多项式曲线很容易过度拟合。 这意味着与简单模型(例如简单线性回归)相比,数据中的干扰信息对曲线形状的更改程度大得多。
曲线是否可用于多个特征?
我们已经了解了多元回归如何同时拟合多个线性关系。 不过,无需将它们限制为线性关系。 在适当的情况下,可将所有类型的曲线用于这些关系。 但是,在不需要使用多个特征时,尽量不要使用具有多个特征的曲线(如多项式)。 这是因为关系最终可能非常复杂,这会使模型更难理解,且更难评估它们所做的预测从实际角度来看是否无意义。