Estatísticas Elementares do Cálculo
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Calcula estatísticas sumárias especificadas para colunas selecionadas de conjuntos de dados
Categoria: Funções Estatísticas
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Visão geral do módulo
Este artigo descreve como utilizar o módulo de Estatísticas Elementares computacional no Machine Learning Studio (clássico), para gerar um relatório sumário para o seu conjunto de dados que lista estatísticas-chave como o desvio médio, padrão e a gama de valores para cada uma das colunas selecionadas.
Este relatório é útil para analisar a tendência central, a dispersão e a forma dos dados.
Como configurar estatísticas elementares do computacional
Adicione o módulo de Estatísticas Elementares computacional à sua experiência. Pode encontrar este módulo na categoria Funções Estatísticas no Machine Learning Studio (clássico).
Ligação um conjunto de dados que contenha as colunas que pretende analisar.
Clique na lista de retirada do método e escolha o tipo de valor que pretende calcular para cada coluna.
Consulte a secção estatísticas apoiadas para obter uma lista completa das estatísticas disponíveis e o que significam.
Por predefinição, o valor selecionado na lista de retirada do Método será calculado para todas as colunas do conjunto de dados que tenham um tipo de dados numérico. Se alguma coluna tiver valores que impeçam o valor de ser calculado, será levantado um erro e o relatório não será criado.
Para evitar este erro, utilize o seletor de colunas para escolher as colunas numéricas para as quais pretende um relatório. Todas as colunas que escolher devem ser numéricas.
Execute a experimentação.
Resultados
O relatório gerado inclui o nome de cada coluna e a estatística que foi calculada. Por exemplo, o quadro seguinte mostra estatísticas geradas para a coluna MPG .
DesvioSquared(mpg) | Max(mpg) | Min(mpg) |
---|---|---|
9674.312 | 25.21951 | 13 |
Dica
Cada vez que executar Estatísticas Elementares do Cálculo, pode gerar apenas uma estatística resumida para cada uma das colunas selecionadas. No entanto, pode utilizar os módulos Add Columns ou Add Rows para fundir os resultados numa única tabela, como no exemplo anterior.
Estatísticas apoiadas
Este módulo suporta as seguintes estatísticas descritivas padrão.
Desvio ao quadrado
Calcula o desvio ao quadrado dos valores da coluna. Também conhecida como a soma dos quadrados.
O desvio ao quadrado é uma medida da distância que os valores estão dispersos da média.
Média geométrica
Calcula a média geométrica dos valores da coluna.
A média geométrica pode ser usada para medir a tendência central de um conjunto de números. Em comparação com a média aritmética, é menos afetada por um pequeno número de valores extremos. Também pode ser usado para comparar medições em escalas diferentes, uma vez que normaliza efetivamente as escalas dos números que estão a ser comparados. Os meios geométricos são por vezes usados para estimar taxas de crescimento anuais compostas.
A função equivalente em Excel é a GEOMEAN.
Média harmónica
Calcula a média harmónica dos valores da coluna.
Para calcular a média harmónica, todos os valores são convertidos para os seus recíprocos, e então a média é tomada desses valores. A média harmónica é a recíproca dessa média. Se os valores da coluna forem positivos, os números maiores são ponderados menos do que números menores.
A média harmónica é sempre inferior à média geométrica, que é sempre menos do que a média aritmética. A média harmónica é útil para uma média de variáveis que representam taxas, tais como velocidade (distância ao longo do tempo) ou vendas por trimestre.
A função equivalente em Excel é HARMEAN.
Distância interquartile
Calcula a diferença interquátil para o primeiro e último quartil dos valores da coluna. Também chamado de intervalo de quartil. Quando o quartil cai entre dois números, o valor do quartil é a média dos dois valores em ambos os lados do corte.
O valor do quartil divide a coluna de valores em quatro grupos com um número igual de valores. Assim, um quarto dos valores são inferiores ou iguais ao percentil 25. Três quartos dos valores são inferiores ou iguais ao percentil 75. Ao rever a gama de quartil, pode ter uma ideia de quão amplamente difundem os valores de dados.
K-th momento central
Calcula o momento central K-th para os valores da coluna.
Ao calcular o momento central do K-th, também deve especificar a Ordem, ou seja, o valor de k. O valor de k pode variar de 0 a qualquer valor inteiro permitido, embora valores de ordem mais elevados geralmente não sejam significativos.
Geralmente, em estatísticas descritivas, um momento é uma medida que descreve a forma de um conjunto de pontos. Momentos centrais são momentos sobre a média, que são normalmente usadas porque fornecem melhor informação sobre a forma da distribuição. Uma ordem de 2 geralmente representa a variação; uma ordem de 4 é usada para a kurtose. O primeiro momento de ordem é o mau. Assim, a coleção de todos os momentos descreve de forma única a distribuição de valores na coluna.
Máx
Encontra o valor máximo na coluna.
Média
Calcula a média aritmética dos valores da coluna.
A função equivalente em Excel é MÉDIA.
Desvio médio
Calcula o desvio absoluto médio para os valores da coluna.
Ou seja, a média é calculada para a coluna, e o desvio calculado para cada valor na coluna. A média dos valores absolutos dos valores de desvio individual é o desvio médio.
Esta estatística diz-te como está espalhada da média que a tua coluna de números está.
Mediana
Devolve a mediana dos valores da coluna.
A mediana é o número no meio de uma coluna de números. Se houver um número par de números na coluna, a mediana é a média dos dois números no meio.
A mediana, juntamente com a média e o modo, é uma das três estatísticas que mede a tendência central. Se os valores forem simétricos em torno da média, os três números serão quase os mesmos. No entanto, a mediana é mais robusta para os forasteiros do que a média.
Desvio mediano
Calcula o desvio mediano para a coluna.
Ou seja, a mediana é calculada para a coluna, e o desvio calculado para cada valor na coluna. O valor mediano dos valores absolutos dos valores de desvio individual é tomado.
O desvio absoluto mediano também é conhecido como MAD, e é usado para descrever a variabilidade de uma amostra de números. Mad diz-lhe como se espalhou da média a sua coluna de números.
Mín
Devolve o valor mínimo dos valores da coluna.
Modo
Encontra todos os modos para a coluna.
O modo é o valor que aparece mais na coluna. Se vários valores aparecerem no mesmo número de vezes, a coluna pode ter vários modos.
Como medida de tendência central, o modo é mais robusto para os forasteiros do que a média, e pode ser usado com dados nominais também.
Desvio padrão da população
Calcula o desvio padrão da população para os valores da coluna.
Esta estatística pressupõe que os valores da coluna representam toda a população. Se os seus dados forem apenas uma amostra da população, deve calcular o desvio padrão utilizando o desvio padrão da amostra. No entanto, em grandes conjuntos de dados, as duas estatísticas retornam valores aproximadamente iguais.
O desvio padrão é calculado como a raiz quadrada da variação da coluna. Esta estatística captura a quantidade de variabilidade na coluna.
Variação populacional
Calcula a variação populacional para os valores da coluna.
A variação mede o número de números que se espalha. Se a variação é zero, todos os números são os mesmos.
Esta estatística pressupõe que a coluna de valores representa toda a população. Se os seus dados contiver apenas uma amostra dos valores, deverá calcular a variação utilizando a variação da amostra.
A função Excel equivalente é VAR.P
.
Produto
Calcula o produto dos elementos da coluna.
Para obter o produto, você tem vários todos os números na coluna. O resultado não é, por si só, útil como uma estatística descritiva, mas a função é útil para uma variedade de outros cálculos.
Intervalo
Calcula o alcance dos valores da coluna. A gama é definida como o valor máximo menos o valor mínimo
A kurtose da amostra
Calcula a kurtose da amostra para os valores da coluna.
A kurtose descreve a forma da distribuição de valores... isto é, o quão alta ou plana é a distribuição dos valores, em comparação com a distribuição normal.
A distribuição normal tem uma kurtose de 0.
Os elevados valores de kurtose indicam que a massa de probabilidade está concentrada em torno de um pico, ou na cauda da distribuição.
Os valores negativos da kurtose indicam uma distribuição relativamente plana.
Distorção da amostra
Calcula a distorção da amostra para os valores da coluna.
Skew descreve se a maior parte dos valores estão no centro, deslocados para a esquerda, ou deslocados para a direita. Duas distribuições podem ter o mesmo desvio médio e padrão, mas ser moldada de forma muito diferente. Você pode usar a distorção e a kurtose para caracterizar a forma.
Valores negativos significam que a distribuição é desviada para a esquerda.
0 denota a distribuição normal.
Valores positivos de distorção significam que a distribuição é desviada para a direita.
Desvio padrão da amostra
Calcula o desvio padrão da amostra para os valores da coluna.
O desvio padrão da amostra mede a propagação dos valores na coluna da média. Representa a distância média entre os valores dos dados no conjunto e a média.
Esta estatística pressupõe que os valores da coluna representam uma amostra da população. Se os seus dados representam toda a população, deve calcular o desvio padrão usando o desvio padrão da População.
A função Excel equivalente é ST. DEV.S.
Variação da amostra
Calcula a variação da amostra para os valores da coluna.
Este método pressupõe que os valores da coluna representam uma amostra da população. Se a coluna contiver toda a população, deve usar a variação padrão da População.
A função Excel equivalente é VAR.S.
Soma
Calcula a soma dos valores da coluna.
Exemplos
As seguintes experiências na Galeria Azure AI demonstram como pode criar um relatório sumário que contenha estatísticas descritivas para um conjunto de dados inteiro. O relatório resumida contém apenas estatísticas gerais; no entanto, pode guardá-lo como um conjunto de dados e, em seguida, adicionar estatísticas mais detalhadas, usando as opções em Estatísticas Elementares computacional.
Conjunto de dados de descarregamento da UCI: O módulo De Dados Sumize é utilizado para gerar um relatório sumário em todas as colunas do conjunto de dados.
Processamento e Análise do Conjunto de Dados: O módulo de dados sumário é utilizado para gerar um relatório sumário em todas as colunas do conjunto de dados.
Notas técnicas
Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.
Dica
As seguintes condições devem ser satisfeitas ao utilizar o módulo de Estatísticas Elementares do Cálculo :
- Deve haver um número suficiente de pontos de dados (linhas) para calcular a estatística selecionada. Por exemplo, calcular o desvio padrão da amostra requer pelo menos dois pontos de dados; caso contrário, o resultado é NaN.
- As colunas de entrada devem ser numéricas ou booleanas.
Por predefinição, todas as colunas numéricas são selecionadas. No entanto, se quaisquer colunas numéricas forem marcadas como categóricas, poderá obter o seguinte erro: " Erro 0056: Coluna com nome> de coluna de nome <não está numa categoria permitida." Para corrigir o erro, adicione uma instância do módulo de Metadados editar, selecione a coluna com o problema e use a opção Remover categoricamente.
Detalhes de implementação
As colunas booleanas são processadas da seguinte forma:
MIN é calculado como lógico E.
MAX é calculado como OR lógico.
RANGE verifica se o número de valores únicos na coluna é igual a 2.
Os valores em falta são ignorados.
Para estatísticas que requerem cálculos de pontos flutuantes, Verdadeiro = 1.0 e Falso = 0,0
Entradas esperadas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados | Tabela de Dados | Conjunto de dados de entrada |
Parâmetros do módulo
Nome | Intervalo | Tipo | Predefinição | Description |
---|---|---|---|---|
Método | Lista | Método das estatísticas elementares | Seleciona um método estatístico para usar em cálculos. Veja como utilizar a secção para obter a lista de valores. | |
Conjunto de colunas | qualquer | Seleção de Colunas | NumericAll | Seleciona as colunas para as quais calcular a estatística |
Encomenda | >=1 | Número inteiro | 3 | Especifica um valor para a ordem de momento central (usado apenas para o kth momento central) |
Saída
Nome | Tipo | Description |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados de saída |
Exceções
Exceção | Description |
---|---|
Erro 0017 | A exceção ocorre se uma ou mais colunas especificadas tiverem um tipo que não é suportado pelo módulo atual. |
Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.
Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.
Ver também
Funções Estatísticas
elementar
Resumir Dados
Lista de Módulos A-Z