Referência Técnica do Algoritmo de Regressão Linear da Microsoft

Artigo
06/13/2017

O algoritmo Regressão Linear da Microsoft é uma versão especial do algoritmo Árvores de Decisão da Microsoft otimizada para pares de modelagem de atributos contínuos. Este tópico explica a implementação do algoritmo, descreve como personalizar o comportamento do algoritmo e fornece links para informações adicionais sobre como consultar modelos.

Implementação do algoritmo de Regressão Linear

O algoritmo Árvores de Decisão da Microsoft pode ser usado para muitas tarefas: regressão linear, classificação ou análise de associação. Para implementar esse algoritmo para fins de regressão linear, os parâmetros do algoritmo são controlados de modo a restringir o crescimento da árvore e manter todos os dados no modelo em um único nó. Em outras palavras, embora a regressão linear se baseie em uma árvore de decisão, a árvore contém apenas uma única raiz e nenhuma ramificação: todos os dados residem no nó raiz.

Para isso, o parâmetro MINIMUM_LEAF_CASES do algoritmo é definido para ser maior ou igual ao número total de casos que o algoritmo usa para treinar o modelo de mineração. Com o parâmetro definido dessa maneira, o algoritmo nunca criará uma divisão e, portanto, executará uma regressão linear.

A equação que representa a linha na regressão assume a forma geral de y = ax + b e é conhecida como a equação de regressão. A variável Y representa a variável de saída, X representa a variável de entrada e a e b são coeficientes ajustáveis. Você pode recuperar os coeficientes, as interseções e outras informações sobre a fórmula de regressão consultando o modelo de mineração completo. Para obter mais informações, consulte Exemplos de consulta do modelo de regressão linear.

Métodos de pontuação e seleção de recursos

Todos os algoritmos de mineração de dados do Analysis Services usam automaticamente a seleção de recursos para melhorar a análise e reduzir a carga de processamento. O método usado para seleção de recursos na regressão linear é a pontuação de interesse, porque o modelo tem suporte apenas para colunas contínuas. Para referência, a tabela a seguir mostra a diferença na seleção de recursos do algoritmo de Regressão Linear e o algoritmo de Árvores de decisão.

Algoritmo	Método de análise	Comentários
Regressão Linear	Pontuação de interesse	Padrão. Outros métodos de seleção de recursos disponíveis com o algoritmo Árvores de Decisão se aplicam às variáveis discretas apenas e, portanto, não são aplicáveis aos modelos de regressão linear.
Árvores de decisão	Pontuação de interesse Entropia de Shannon Bayesian com K2 a priori Bayesian Dirichlet com uniforme a priori (padrão)	Se qualquer coluna contiver valores contínuos não binários, a pontuação de interesse será usada em todas as colunas para garantir a consistência. Caso contrário, será usado o método padrão ou o especificado.

Os parâmetros de algoritmo que controlam seleção de recursos para um modelo de árvores de decisão são MAXIMUM_INPUT_ATTRIBUTES e MAXIMUM_OUTPUT.

Personalizando o algoritmo de Regressão Linear

O algoritmo regressão linear da Microsoft dá suporte a parâmetros que afetam o comportamento, o desempenho e a precisão do modelo de mineração resultante. Também é possível definir sinalizadores de modelagem nas colunas do modelo de mineração ou da estrutura de mineração para controlar a maneira como os dados são processados.

Definindo parâmetros de algoritmo

A tabela a seguir lista os parâmetros fornecidos para o algoritmo regressão linear da Microsoft.

Parâmetro	Descrição
MAXIMUM_INPUT_ATTRIBUTES	Define o número de atributos de entrada que o algoritmo pode manipular antes de invocar a seleção de recurso. Defina este valor como 0 para desativar a seleção de recursos. O padrão é 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Define o número de atributos de saída que o algoritmo pode manipular antes de invocar a seleção de recurso. Defina este valor como 0 para desativar a seleção de recursos. O padrão é 255.
FORCE_REGRESSOR	Força o algoritmo a usar as colunas indicadas como regressores, independentemente da sua importância quando calculadas pelo algoritmo.

Sinalizadores de modelagem

O algoritmo regressão linear da Microsoft dá suporte aos seguintes sinalizadores de modelagem. Ao criar um modelo ou uma estrutura de mineração, você define sinalizadores de modelagem para especificar como os valores em cada coluna são manipulados durante a análise. Para obter mais informações, consulte Modelagem de sinalizadores (mineração de dados).

Sinalizador de modelagem	Descrição
NOT NULL	Indica que a coluna não pode conter um nulo. Um erro ocorrerá se o Analysis Services encontrar um valor nulo durante o treinamento do modelo. Aplica-se às colunas de estrutura de mineração.
REGRESSOR	Indica que a coluna contém valores numéricos contínuos que devem ser tratados como variáveis independentes potenciais durante a análise. Observação: sinalizar uma coluna como um regressor não assegura que ela será usada como tal no modelo final. Aplica-se às colunas de modelo de mineração.

Regressor em modelos de regressão lineares

Os modelos de regressão linear são baseados no algoritmo Árvores de Decisão da Microsoft. No entanto, mesmo que você não use o algoritmo regressão linear da Microsoft, qualquer modelo de árvore de decisão pode conter uma árvore ou nós que representam uma regressão em um atributo contínuo.

Não é necessário especificar que uma coluna contínua representa um regressor. O algoritmo Árvores de Decisão da Microsoft particionará o conjunto de dados em regiões com padrões significativos, mesmo que você não defina o sinalizador REGRESSOR na coluna. A diferença é que, quando você define o sinalizador de modelagem, o algoritmo tentará encontrar equações de regressão do formulário a*C1 + b*C2 + ... para ajustar os padrões nos nós da árvore. A soma dos restos é calculada e, se o desvio for muito grande, será forçada uma divisão da árvore.

Por exemplo, se você estiver prevendo o comportamento de compra dos clientes usando Renda como um atributo e definir o sinalizador de modelagem REGRESSOR na coluna, o algoritmo primeiro tentará adequar-se aos valores de Renda usando uma fórmula de regressão padrão. Se o desvio for muito grande, a fórmula de regressão será abandonada e a árvore será dividida em algum outro atributo. O algoritmo árvore de decisão tentará ajustar um regressor para renda em cada uma das ramificações após a divisão.

Você pode usar o parâmetro FORCED_REGRESSOR para garantir que o algoritmo usará um determinado regressor. Esse parâmetro só pode ser usado com os algoritmos Árvores de decisão e Regressão Linear da Microsoft.

Requisitos

Um modelo de regressão linear deve conter uma coluna de chave, colunas de entrada e pelo menos uma coluna previsível.

Colunas de entrada e colunas previsíveis

O algoritmo regressão linear da Microsoft dá suporte às colunas de entrada específicas e colunas previsíveis listadas na tabela a seguir. Para obter mais informações sobre o que os tipos de conteúdo significam quando usados em um modelo de mineração, consulte Tipos de conteúdo (mineração de dados).

Coluna	Tipos de conteúdo
Atributo de entrada	Contínuo, Cíclico, Chave, Tabela e Ordenado
Atributo previsível	Contínuo, cíclico e ordenado

Observação

Os tipos de conteúdo Cyclical e Ordered têm suporte, mas o algoritmo os trata como valores discretos e não executa processamento especial.

Consulte Também

Algoritmo Regressão Linear da Microsoft
Exemplos de consulta de modelo de regressão linear
Conteúdo do modelo de mineração para modelos de regressão linear (Analysis Services – Mineração de Dados)

Partilhar via