Função de agregação corr
Aplica-se a: SQL do Databricks Runtime do Databricks
Retorna o coeficiente Pearson de correlação entre um grupo de pares de números.
Sintaxe
corr ( [ALL | DISTINCT] expr1, expr2 ) [FILTER ( WHERE cond ) ]
Essa função também pode ser invocada como uma função de janela usando a cláusula OVER
.
Argumentos
expr1
: uma expressão avaliada como um numérico.expr2
: uma expressão avaliada como um numérico.cond
: uma expressão booliana opcional que filtra as linhas usadas para agregação.
Retornos
Um DOUBLE.
Se DISTINCT
for especificado, a função só operará em um conjunto exclusivo de pares expr1
, expr2
.
Exemplos
> SELECT corr(c1, c2) FROM VALUES (3, 2), (3, 3), (3, 3), (6, 4) as tab(c1, c2);
0.816496580927726
> SELECT corr(DISTINCT c1, c2) FROM VALUES (3, 2), (3, 3), (3, 3), (6, 4) as tab(c1, c2);
0.8660254037844387
> SELECT corr(DISTINCT c1, c2) FILTER(WHERE c1 != c2)
FROM VALUES (3, 2), (3, 3), (3, 3), (6, 4) as tab(c1, c2);
1.0