Алгоритм линейной регрессии (Майкрософт)
Алгоритм линейной регрессии (Майкрософт) — это разновидность алгоритма дерева принятия решений Майкрософт, который помогает вычислить линейную связь между зависимой и независимой переменной, а затем использовать эту связь для прогнозирования.
Связь принимает вид формулы линии, представляющей ряд данных. Например, линия на следующей диаграмме является наилучшим линейным представлением данных.
Каждой точке на диаграмме соответствует ошибка, связанная с ее расстоянием от линии регрессии. Коэффициенты a и b в уравнении регрессии регулируют угол и положение линии регрессии. Регрессивное уравнение можно получать с помощью подбора коэффициентов a и b до тех пор, пока сумма ошибок, связанных с этими точками, не станет минимальной.
Существуют другие типы регрессии, в которых используется несколько переменных, а также нелинейные методы регрессии. Однако линейная регрессия является полезным и широко известным методом моделирования ответа на изменение в каком-либо базовом факторе.
Пример
Линейную регрессию можно использовать для определения связи между двумя непрерывными столбцами. Например, можно использовать линейную регрессию для вычисления линии тренда в производственных данных или данных продаж. Линейную регрессию также можно использовать в качестве основы для разработки более сложных моделей интеллектуального анализа данных; с ее помощью можно оценить связи между столбцами данных.
Хотя существует множество способов вычисления линейной регрессии, для которых не требуются средства интеллектуального анализа данных, преимущество использования алгоритма линейной регрессии Майкрософт для этой задачи заключается в том, что все возможные связи между переменными вычисляются и проверяются автоматически. Метод вычисления, например вычисление наименьших квадратов, задавать необязательно. Однако линейная регрессия может чрезмерно упростить связи в сценариях, в которых на результат влияют несколько факторов.
Принцип работы алгоритма
Алгоритм линейной регрессии (Майкрософт) является разновидностью алгоритма Дерева принятия решений Майкрософт. При выборе алгоритма линейной регрессии Майкрософт вызывается особый случай алгоритма Дерева принятия решений (Майкрософт) с параметрами, ограничивающими поведение алгоритма и требующими определенных типов входных данных. Более того, в модели линейной регрессии для вычисления связей при начальном проходе используется весь набор данных; тогда как в стандартной модели дерева принятия решения данные многократно разбиваются на более малые подмножества или деревья.
Данные, необходимые для моделей линейной регрессии
При подготовке данных для использования в модели линейной регрессии необходимо учитывать требования конкретных алгоритмов. Следует учитывать объем необходимых данных и то, как они используются. Для данного типа моделей предъявляются следующие требования.
Единичный ключевой столбец Каждая модель должна содержать один числовой или текстовый столбец, который уникальным образом определяет каждую запись. Составные ключи не допускаются.
Прогнозируемый столбец Необходимо наличие по крайней мере одного прогнозируемого столбца. В модель можно включить несколько прогнозируемых атрибутов, однако они должны иметь непрерывные числовые типы данных. Тип данных datetime нельзя использовать в качестве прогнозируемого атрибута даже в случае, если собственный формат хранения данных является числовым.
Входные столбцы . Во входных столбцах должны содержаться непрерывные числовые данные; кроме того, они должны иметь подходящий тип данных.
Дополнительные сведения см. в разделе "Требования" статьи Технический справочник по алгоритму линейной регрессии (Майкрософт).
Просмотр модели линейной регрессии
Чтобы исследовать модель, можно использовать средство просмотра деревьев (Майкрософт). Структура дерева модели линейной регрессии крайне проста; вся информация регрессионного уравнения содержится в одном узле. Дополнительные сведения см. в разделе Просмотр модели с помощью средства просмотра деревьев (Майкрософт).
Если необходимо получить дополнительные сведения об уравнении, коэффициенты и другие сведения также можно просматривать с помощью средства просмотра деревьев содержимого общего вида (Майкрософт).
В содержимое модели линейной регрессии входят метаданные, формула регрессии и статистика распределения входных значений. Дополнительные сведения см. в разделе Содержимое модели интеллектуального анализа данных для моделей линейной регрессии (службы Analysis Services — интеллектуальный анализ данных).
Создание прогнозов
После того как обработка модели была закончена, результаты хранятся в виде набора статистических данных совместно с формулой линейной регрессии, которая в дальнейшем может быть использована для вычисления трендов. Примеры запросов, применимых в модели линейной регрессии, см. в разделе Примеры запросов модели линейной регрессии.
Общие сведения о создании запросов к моделям интеллектуального анализа см. в разделе Запросы интеллектуального анализа данных.
В дополнение к созданию модели линейной регрессии путем выбора алгоритма линейной регрессии Майкрософт, если прогнозируемый атрибут является непрерывным числовым типом данных, можно создать модель дерева принятия решений, содержащую регрессии. В этом случае алгоритм разобьет данные при обнаружении точек, подходящих для разделения, но для некоторых областей данных будет создана формула регрессии. Дополнительные сведения о деревьях регрессии в модели деревьев принятия решений см. в разделе Содержимое модели интеллектуального анализа данных для моделей дерева принятия решений (службы Analysis Services — интеллектуальный анализ данных).
Комментарии
Не поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Не поддерживается создание измерений интеллектуального анализа данных.
Поддерживается детализация.
Поддерживается использование моделей интеллектуального анализа OLAP.
См. также:
Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)Microsoft Linear Regression Algorithm Technical ReferenceLinear Regression Model Query ExamplesModel Contents Model for Linear Regression Models (Analysis Services — Data Mining)