Computar estatísticas elementares
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Calcula as estatísticas de resumo especificadas para colunas do conjunto de dados selecionado
Categoria: funções estatísticas
Observação
aplica-se a: somente Machine Learning Studio (clássico)
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Visão geral do módulo
este artigo descreve como usar o módulo de estatísticas elementares de computação no Machine Learning Studio (clássico), para gerar um relatório de resumo para seu conjunto de módulos que lista as principais estatísticas, como média, desvio padrão e o intervalo de valores para cada uma das colunas selecionadas.
Este relatório é útil para analisar a tendência central, a dispersão e o formato dos dados.
Como configurar estatísticas elementares de computação
Adicione o módulo de estatísticas elementares de computação ao seu experimento. você pode encontrar esse módulo na categoria funções estatísticas no Machine Learning Studio (clássico).
Conexão um dataset que contém as colunas que você deseja analisar.
Clique na lista suspensa método e escolha o tipo de valor que você deseja calcular para cada coluna.
Consulte a seção estatísticas com suporte para obter uma lista completa de estatísticas disponíveis e o que elas significam.
Por padrão, o valor que você selecionou na lista suspensa do método será calculado para todas as colunas no conjunto de dados que têm um tipo de dado numérico. Se qualquer coluna tiver valores que impeçam que o valor seja calculado, um erro será gerado e o relatório não será criado.
Para evitar esse erro, use o seletor de coluna para escolher as colunas numéricas para as quais você deseja um relatório. Todas as colunas escolhidas devem ser numéricas.
Execute o experimento.
Resultados
O relatório gerado inclui o nome de cada coluna e a estatística calculada. Por exemplo, a tabela a seguir mostra as estatísticas geradas para a coluna MPG .
DeviationSquared (MPG) | Máx. (MPG) | Mín. (MPG) |
---|---|---|
9674,312 | 25,21951 | 13 |
Dica
Cada vez que você executa as estatísticas elementares de computação, ele pode gerar apenas uma única estatística de resumo para cada uma das colunas selecionadas. No entanto, você pode usar os módulos adicionar colunas ou adicionar linhas para mesclar os resultados em uma única tabela, como no exemplo anterior.
Estatísticas com suporte
Este módulo dá suporte às seguintes estatísticas descritivas padrão.
Desvio quadrado
Calcula o desvio quadrado dos valores da coluna. Também conhecida como a soma dos quadrados.
O desvio quadrado é uma medida de quão longe os valores são distribuídos da média.
Média geométrica
Calcula a média geométrica dos valores de coluna.
A média geométrica pode ser usada para medir a tendência central de um conjunto de números. Em comparação com a média aritmética, ela é menos afetada por um pequeno número de valores extremos. Ele também pode ser usado para comparar medidas em escalas diferentes, pois ela normaliza efetivamente as escalas dos números que estão sendo comparados. Às vezes, o meio geométrico é usado para estimar as taxas de crescimento anual compostas.
a função equivalente no Excel é geomédia.
Média harmônica
Calcula a média harmônica dos valores de coluna.
Para calcular a média harmônica, todos os valores são convertidos em seus recíprocos e, em seguida, a média é obtida desses valores. A média harmônica é o recíproco dessa média. Se os valores de coluna forem positivos, números maiores serão ponderados em menos de números menores.
A média harmônica é sempre menor que a média geométrica, que é sempre menor que a média aritmética. A média harmônica é útil para a média de variáveis que representam taxas, como velocidade (distância ao longo do tempo) ou vendas por trimestre.
a função equivalente no Excel é HARMEAN.
Distância interquartílica
Calcula a diferença interquartil para o primeiro e o último quartil dos valores da coluna. Também chamado de intervalo quartil. Quando o quartil cai entre dois números, o valor de quartil é a média dos dois valores em cada lado do corte.
O valor quartil divide a coluna de valores em quatro grupos com um número igual de valores. Portanto, um trimestre dos valores é menor ou igual ao 25º percentil. Três trimestres dos valores são menores ou iguais ao 75th percentil. Ao revisar o intervalo quartil, você pode ter uma ideia de quão disseminar os valores de dados.
Momento central K-ésimo
Calcula o momento central K-ésimo para os valores de coluna.
Ao calcular o momento central K-ésimo, você também deve especificar o pedido, ou seja, o valor de K. O valor de k pode variar de 0 para qualquer valor inteiro permitido, embora valores de ordem mais altos geralmente não sejam significativos.
Geralmente, em estatísticas descritivas, um momento é uma medida que descreve a forma de um conjunto de pontos. Os momentos centrais são momentos sobre a média, que geralmente são usados porque fornecem informações melhores sobre a forma da distribuição. Uma ordem de 2 geralmente representa a variância; uma ordem de 4 é usada para curtose. O primeiro momento da ordem é a média. Assim, a coleção de todos os momentos descreve exclusivamente a distribuição de valores na coluna.
Max
Localiza o valor máximo na coluna.
Média
Calcula a média aritmética dos valores de coluna.
a função equivalente em Excel é média.
Desvio médio
Calcula o desvio de média absoluta para os valores de coluna.
Ou seja, a média é calculada para a coluna e o desvio calculado para cada valor na coluna. A média dos valores absolutos dos valores de desvio individuais é o desvio médio.
Essa estatística informa a você como se espalhar da média de sua coluna de números.
Mediana
Retorna a mediana dos valores de coluna.
A mediana é o número no meio de uma coluna de números. Se houver um número par de números na coluna, a mediana será a média dos dois números no meio.
A mediana, junto com a média e o modo, é uma das três estatísticas que mede a tendência central. Se os valores forem simétricos em torno da média, os três números serão iguais. No entanto, a mediana é mais robusta para exceções do que a média.
Desvio médio
Calcula o desvio mediano da coluna.
Ou seja, a mediana é calculada para a coluna e o desvio calculado para cada valor na coluna. O valor mediano dos valores absolutos dos valores de desvio individuais é retirado.
O desvio absoluto mediano também é conhecido como MAD e é usado para descrever a variabilidade de uma amostra de números. O MAD informa como se propagar da média de sua coluna de números.
Min
Retorna o valor mínimo dos valores de coluna.
Mode
Localiza todos os modos para a coluna.
O modo é o valor que aparece mais na coluna. Se vários valores aparecerem com o mesmo número de vezes, a coluna poderá ter vários modos.
Como medida de tendência central, o modo é mais robusto para saídas do que a média e também pode ser usado com dados nominais.
Desvio padrão da população
Calcula o desvio padrão da população para os valores de coluna.
Essa estatística pressu que os valores de coluna representam toda a população. Se os dados são apenas uma amostra da população, você deve calcular o desvio padrão usando o desvio padrão de exemplo. No entanto, em grandes conjuntos de dados, as duas estatísticas retornam valores aproximadamente iguais.
O desvio padrão é calculado como a raiz quadrada da variação da coluna. Essa estatística captura a quantidade de variabilidade na coluna.
Variância da população
Calcula a variação da população para os valores de coluna.
A variação mede quanto um conjunto de números é distribuído. Se a variação for zero, todos os números serão os mesmos.
Essa estatística pressu que a coluna de valores representa toda a população. Se os dados contiver apenas uma amostra dos valores, você deverá calcular a variância usando Variância de exemplo.
A função Excel equivalente é VAR.P
.
Produto
Calcula o produto dos elementos da coluna.
Para obter o produto, você pode vários números na coluna. O resultado em si não é útil como uma estatística descritiva, mas a função é útil para uma variedade de outros cálculos.
Intervalo
Calcula o intervalo dos valores de coluna. O intervalo é definido como o valor máximo menos o valor mínimo
Curtose de exemplo
Calcula a amostra de curtose para os valores de coluna.
A rotina descreve a forma da distribuição de valores, ou seja, o pico ou o tamanho da distribuição de valores, em comparação com a distribuição normal.
A distribuição normal tem uma curtose de 0.
Valores altos de curtose indicam que a massa de probabilidade está concentrada em torno de um pico ou na parte final da distribuição.
Valores de curtose negativos indicam uma distribuição relativamente simples.
Distorção de exemplo
Calcula a distorção de exemplo para os valores de coluna.
Distorção descreve se a maior parte dos valores está no centro, deslocada para a esquerda ou deslocada para a direita. Duas distribuições podem ter a mesma média e desvio padrão, mas ser formaadas de maneira muito diferente. Você pode usar distorção e curtose para caracterizar a forma.
Valores de distorção negativos significa que a distribuição é distorcida para a esquerda.
0 indica a distribuição normal.
Valores de distorção positivos significam que a distribuição é distorcida para a direita.
Desvio padrão do exemplo
Calcula o desvio padrão de exemplo para os valores de coluna.
O desvio padrão da amostra mede como os valores distribuídos na coluna são da média. Ele representa a distância média entre os valores dos dados no conjunto e a média.
Essa estatística pressu que os valores de coluna representam uma amostra da população. Se os dados representarem toda a população, você deverá calcular o desvio padrão usando o Desvio padrão de população.
A função Excel equivalente é ST. DEV.S.
Variância de exemplo
Calcula a variação de exemplo para os valores de coluna.
Esse método presume que os valores de coluna representam uma amostra da população. Se a coluna contiver toda a população, você deverá usar Variação padrão de população.
A função Excel equivalente é VAR.S.
Somar
Calcula a soma dos valores de coluna.
Exemplos
Os experimentos a seguir no Galeria de IA do Azure demonstram como você pode criar um relatório de resumo que contém estatísticas descritivas para um todo o conjuntos de dados. O relatório de resumo contém apenas estatísticas gerais; No entanto, você pode salvá-lo como um conjuntos de dados e, em seguida, adicionar estatísticas mais detalhadas, usando as opções em Estatísticas Elementares de Computação.
Baixar o conjuntos de dados do UCI: o módulo Resumir Dados é usado para gerar um relatório resumido em todas as colunas no conjuntos de dados.
Processamento e análise de conjuntos de dados: o módulo Resumir Dados é usado para gerar um relatório de resumo em todas as colunas no conjuntos de dados.
Observações técnicas
Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.
Dica
As seguintes condições devem ser atendidas ao usar o módulo Estatísticas Elementares de Computação:
- Deve haver um número suficiente de pontos de dados (linhas) para calcular a estatística selecionada. Por exemplo, para calcular o desvio padrão de exemplo , é necessário pelo menos dois pontos de dados; caso contrário, o resultado será NaN.
- Colunas de entrada devem ser numéricas ou boolianas.
Por padrão, todas as colunas numéricas são selecionadas. No entanto, se qualquer coluna numérica for marcada como categórica, você poderá receber o seguinte erro: "Erro 0056: Coluna <> com nome de coluna não está em uma categoria permitida". Para corrigir o erro, adicione uma instância do módulo Editar Metadados, selecione a coluna com o problema e use a opção Remover categórico.
Detalhes de implementação
As colunas boolianas são processadas como a seguir:
MÍN é calculado como a lógica AND.
MÁX é calculado como a lógica OR.
INTERVALO verifica se o número de valores exclusivos na coluna é igual a 2.
Os valores ausentes são ignorados.
Para estatísticas que exigem cálculos de ponto flutuante, True = 1,0, False = 0,0
Entradas esperadas
Nome | Tipo | Descrição |
---|---|---|
Dataset | Tabela de Dados | Conjunto de dados de entrada |
Parâmetros do módulo
Nome | Intervalo | Type | Padrão | Descrição |
---|---|---|---|---|
Método | Lista | Método de estatística elementar | Seleciona um método estatístico a ser usado em cálculos. Consulte a seção Como usar para ver a lista de valores. | |
Conjunto de colunas | any | ColumnSelection | NumericAll | Selecione as colunas para as quais calcular a estatística |
Order | >=1 | Integer | 3 | Especifica um valor para a ordem de momento central (usado somente para o momento central enésimo) |
Saída
Nome | Tipo | Descrição |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados de saída |
Exceções
Exceção | Descrição |
---|---|
Erro 0017 | Ocorre uma exceção se uma ou mais colunas especificadas tem um tipo que não é suportado pelo módulo atual. |
para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.
para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.
Confira também
Funções estatísticas
elementar
Resumir Dados
Lista de Módulo A-Z