Compartilhar via


Computar correlação linear

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Calcula a correlação linear entre os valores da coluna em um banco de dados

Categoria: Funções Estatísticas

Observação

Aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo correlação linear de computação no Machine Learning Studio (clássico) para calcular um conjunto de coeficientes de correlação de Pearson para cada par possível de variáveis no conjunto de dados de entrada.

O coeficiente de correlação de Pearson, às vezes chamado de teste R de Pearson, é um valor estatístico que mede a relação linear entre duas variáveis. Examinando os valores de coeficiente, você pode inferir algo sobre a força da relação entre as duas variáveis e se elas estão correlacionadas positivamente ou negativamente.

Como configurar a Correlação Linear

Antes de calcular o coeficiente de correlação, há alguns pré-requisitos, como limpar seus dados e verificar se a relação entre as variáveis é apropriada para este módulo. Você também deve remover ou imputar valores ausentes.

As seguintes restrições se aplicam ao usar este módulo:

  • O módulo Correlação Linear de Computação pode processar apenas valores numéricos. Todos os outros tipos de valores, inclusive valores ausentes, valores não numéricos e valores de categoria, são tratados como NaNs.

  • A correlação de Pearson é calculada para todas as colunas numéricas no conjunto de dados que são passadas como entrada. Exclua todas as colunas apropriadas para essa análise.

  • A Correlação Linear de Computação não pode ser usada com dados que têm valores ausentes.

Etapa 1: Determinar a linearidade

Se não se espera que as colunas que você está testando tenham algum tipo de relação linear, não faz sentido gerar esse coeficiente. Portanto, é uma boa ideia testar as colunas primeiro, para ver se elas têm o tipo certo de dados e o tipo certo de distribuição em geral.

Há várias maneiras de determinar se a relação entre as colunas é aproximadamente linear:

  • Crie um gráfico de dispersão das variáveis no Studio (clássico), usando a opção Visualizar no conjunto de dados. Clique em uma das colunas de variáveis numéricas, expanda Visualizações e clique em comparar. Selecione uma variável diferente e um gráfico de dispersão é gerado automaticamente. Se um tipo diferente de gráfico for gerado, isso significa que pelo menos uma coluna tem um tipo de dados diferente (não numérico).

  • Calcule uma equação de regressão para as duas variáveis. Há muitos pacotes R que dão suporte a isso, que você pode carregar e usar no módulo Executar Script R .

Etapa 2: Limpar dados

Você deve remover ou preencher valores ausentes, remover ou cortar exceções e garantir que as colunas tenham o tipo de dados adequado.

Verifique se há espaços reservados e substitua esse valor por outros valores apropriados antes de usar este módulo. Se as NaNs foram inseridas para valores ausentes quando o conjunto de dados foi carregado da origem, isso pode causar um erro. Valores de espaço reservado, como 999 ou -1 também podem causar resultados ruins.

Para preparar seus dados, você pode usar estes módulos:

Você pode ajustar o tipo de dados das colunas usando Editar Metadados. Verifique se as colunas que você deseja analisar estão marcadas como colunas de recurso.

Etapa 3: Gerar o coeficiente

  1. Adicione o módulo correlação linear de computação ao seu experimento. Você pode encontrar este módulo na categoria Funções Estatísticas no Machine Learning Studio (clássico).

  2. Adicione o conjunto de dados que você deseja analisar.

  3. Recomendamos que você adicione um módulo Selecionar Colunas no Conjunto de Dados entre o conjunto de dados e o módulo correlação linear de computação para remover colunas desnecessárias. Configure o módulo Selecionar Colunas no Conjunto de Dados para obter apenas as duas colunas numéricas para as quais você deseja calcular coeficientes.

    Caso contrário, o módulo correlação linear de computação pode gerar muitas colunas de NaNs.

  4. Não há parâmetros a serem definidos para este módulo. No entanto, ele falhará se as colunas passadas como entradas não atenderem aos requisitos.

  5. Execute o experimento.

Resultados de duas colunas

Considerando duas colunas de recurso, o módulo Correlação Linear de Computação retorna o coeficiente de correlação escalar do produto Pearson (exemplo). O coeficiente de correlação de Pearson (geralmente indicado como r) varia em valor de +1 a -1.

  • +1 indica uma relação linear positiva forte

  • -1 indica uma correlação linear negativa forte

  • 0 não indica nenhuma relação linear entre as duas variáveis.

A interpretação dos coeficientes depende muito do problema que você está modelando e das variáveis que você está estudando. Portanto, é importante entender o contexto dos dados ao relatar e interpretar o coeficiente de correlação de Pearson.

  • Se você tiver certeza de que as variáveis não estão relacionadas e, no entanto, o coeficiente de correlação de Pearson é fortemente positivo (r.5 > ou mais), você deve investigar mais.

  • Se você usar correlação linear em duas variáveis que você sabe que estão perfeitamente correlacionadas e os valores de coeficiente não são o esperado, isso pode indicar um problema nos dados.

Resultados de mais de duas colunas

Considerando uma matriz (ou seja, mais de duas colunas de recurso), o módulo Correlação Linear de Computação retorna um conjunto de correlações de momento do produto Pearson entre cada par de colunas de recurso.

Portanto, o resultado é uma tabela n x n que contém os coeficientes para cada combinação de n colunas. Se as colunas não atenderem aos critérios, um NaN (valor "não um número") será retornado.

Por exemplo, suponha que você passou nas duas colunas numéricas wheel-base e curb-weight mais uma coluna make categórica (do conjunto de dados de preços do Automóvel). O resultado é uma tabela 3x3 de coeficientes para todas as combinações possíveis das colunas de entrada:

make wheel-base curb-weight
Nan Nan Nan
Nan 1 0.776386
Nan 0.776386 1

Nesta tabela, as linhas são compreendidas para representar cada uma das variáveismakewheel-base ecurb-weight, nessa ordem.

  • O valor r para a correlação de wheel-base si mesmo é 1.
  • O valor r para a correlação de wheel-base a curb-weight ser 0,776386.
  • Todas as correlações envolvendo a coluna make resultam em NaN, incluindo a correlação consigo mesma, porque make é um recurso de cadeia de caracteres.

É recomendável remover colunas não numéricas para evitar tabelas complexas com muitos valores sem sentido.

Exemplos

Para ver como este módulo é usado em experimentos de machine learning, consulte a Galeria de IA do Azure:

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Detalhes de implementação

Se a coluna passada como entrada contiver escalares, as matrizes de entrada (x e y) são tratadas como vetores e a correlação de momento do produto Pearson é retornada, da seguinte maneira:

linear correlation formula

Nesta fórmula, cada matriz contém n elementos e os meios das amostras x e y são μx e μy, respectivamente.

Para o caso de matriz, uma matriz de dados, (X), é entrada na qual cada coluna representa um vetor de valores. A matriz de dados deve ser n-by-m. A saída é a matriz m-by-m, R como definido por

formula for linear correlation

Nesta fórmula, μx representa o valor médio da coluna xi. Os elementos em I,j são sempre iguais a 1, pois representam a correlação de um vetor com ele próprio.

Entradas esperadas

Nome Tipo Descrição
Dataset Tabela de Dados Conjunto de dados de entrada

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Matriz de correlações

Exceções

Exceção Descrição
Erro 0003 Ocorrerá uma exceção se uma ou mais das entradas for nula ou estiver vazia.
Erro 0020 Ocorre uma exceção se o número de colunas em alguns dos conjuntos de dados transmitidos para o módulo for muito pequeno.
Erro 0021 Ocorre uma exceção se o número de linhas em alguns dos conjuntos de dados passados para o módulo for muito pequeno.

Para obter uma lista de erros específicos dos módulos do Studio (clássico), consulte Machine Learning códigos de erro.

Para obter uma lista de exceções de API, consulte Machine Learning códigos de erro da API REST.

Confira também

Funções estatísticas
Lista de Módulo A-Z