Artigo
04/01/2012

Algoritmo Regressão Linear da Microsoft

O algoritmo Regressão Linear da Microsoft é uma variação do algoritmo Árvores de Decisão da Microsoft que o ajuda a calcular uma relação linear entre uma variável dependente e uma independente e, depois, a usar aquela relação para previsão.

A relação assume a forma de uma equação para uma linha que melhor represente uma série de dados. Por exemplo, a linha no diagrama a seguir é a melhor representação linear possível dos dados.

Uma linha que modela um conjunto de dados

Cada ponto de dados no diagrama tem um erro associado à sua distância da linha de regressão. Os coeficientes a e b na equação de regressão ajustam o ângulo e o local da linha de regressão. É possível obter a equação de regressão ajustando a e b até que a soma dos erros associados a todos os pontos atinja o menor número.

Há outros tipos de regressão que usam diversas variáveis e também métodos não lineares de regressão. Porém, uma regressão linear é um método útil e conhecido para modelar uma resposta a uma alteração em alguns fatores subjacentes.

Exemplo

É possível usar a regressão linear para determinar uma relação entre duas colunas contínuas. Por exemplo, você pode usar a regressão linear para computar uma linha de tendência de dados de fabricação ou de vendas. É possível também usar a regressão linear como um precursor para o desenvolvimento de modelos de mineração de dados mais complexos para avaliar relações entre colunas de dados.

Apesar de haver muitas maneiras para se computar regressão linear sem a necessidade de ferramentas de mineração de dados, a vantagem de usar o algoritmo Regressão Linear da Microsoft para esta tarefa é que todas as relações possíveis entre as variáveis são automaticamente computadas e testadas. Não é necessário selecionar um método de computação, como resolver para mínimos quadrados. Porém, a regressão linear pode simplificar muito as relações em cenários onde diversos fatores afetam o resultado.

Como o algoritmo funciona

O algoritmo Regressão Linear da Microsoft é uma variação do algoritmo Árvores de Decisão da Microsoft. Ao selecionar o algoritmo Regressão Linear da Microsoft, é chamado um tipo especial de algoritmo Árvores de Decisão da Microsoft, com parâmetros que restringem o comportamento do algoritmo e requerem determinados tipos de dados de entrada. Além disso, em um modelo de regressão linear, todo o conjunto de dados é usado para computar relações na passagem inicial, enquanto que um modelo de árvores de decisão divide os dados repetidamente em subconjuntos ou árvores menores.

Dados requeridos para modelos de regressão linear

Ao preparar dados para usar em um modelo de regressão linear, você deve entender os requisitos para o algoritmo específico. Isso inclui a quantidade de dados necessária e a forma como os dados são usados. Os requisitos para este tipo de modelos são os seguintes:

Uma única key coluna Cada modelo deve conter uma coluna numérica ou de texto que identifique unicamente cada registro. Não são permitidas chaves compostas.
Uma coluna previsível Requer, pelo menos, uma coluna previsível. Você pode incluir diversos atributos previsíveis em um modelo, mas eles devem ser tipos de dados numéricos contínuos. Não é possível usar um tipo de dados datetime como um atributo previsível, mesmo que o armazenamento nativo dos dados seja numérico.
Colunas de entrada Colunas de entrada devem conter dados numéricos contínuos e devem ser atribuídas ao tipo de dados apropriado.

Para obter mais informações, consulte a seção Requisitos de Referência Técnica do Algoritmo de Regressão Linear da Microsoft.

Exibindo um modelo de regressão linear

Para explorar o modelo, você pode usar o Visualizador de Árvores da Microsoft. A estrutura da árvore para um modelo de regressão linear é muito simples, com todas as informações sobre a equação de regressão contidas em um único nó. Para obter mais informações, consulte Exibindo um modelo de mineração com o Visualizador de Árvores da Microsoft.

Se quiser obter mais detalhes sobre a equação, você também pode exibir os coeficientes e outros detalhes usando o Visualizador de Árvore de Conteúdo Genérica da Microsoft.

No caso de um modelo de regressão linear, o conteúdo do modelo inclui metadados, a fórmula de regressão e as estatísticas sobre a distribuição de valores de entrada. Para obter mais informações, consulte Conteúdo do modelo de mineração para modelos de regressão linear (Analysis Services – Mineração de Dados).

Criando previsões

Depois que o modelo foi processado, os resultados são armazenados como um conjunto de estatísticas, juntamente com a fórmula de regressão linear que pode ser usada para computar tendências futuras. Para obter exemplos de consultas a serem usadas com um modelo de regressão linear, consulte Consultando um modelo de regressão linear (Analysis Services – Mineração de Dados).

Para obter informações gerais sobre como criar consultas para modelos de mineração, consulte Consultando modelos de mineração de dados (Analysis Services - Mineração de dados).

Além de criar um modelo de regressão linear selecionando o algoritmo Regressão Linear da Microsoft, se o atributo previsível for um tipo de dados numérico contínuo, você poderá criar um modelo de árvore de decisão que contenha regressões. Neste caso, o algoritmo irá dividir quando encontrar os pontos de separação apropriados, mas criará uma fórmula de regressão para algumas regiões de dados. Para obter mais informações sobre árvores de regressão em um modelo de árvores de decisão, consulte Conteúdo do modelo de mineração para modelos de árvore de decisão (Analysis Services – Mineração de Dados).

Comentários

Não suporta o uso de PMML (Predictive Model Markup Language) para criar modelos de mineração.
Não suporta a criação de dimensões de mineração de dados.
Suporta detalhamento.
Suporta o uso de modelos de mineração OLAP.