Resumir dados
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Gera um relatório de estatísticas descritivas básicas para as colunas em um conjunto de dados
Categoria: Funções Estatísticas
Observação
Aplica-se a: Machine Learning Studio (clássico) somente
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Visão geral do módulo
Este artigo descreve como usar o módulo Resumir Dados no Machine Learning Studio (clássico) para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.
Essas estatísticas resumidas são úteis quando você deseja entender as características do conjuntos de dados completo. Por exemplo, talvez seja necessário saber:
- Quantos valores ausentes existem em cada coluna?
- Quantos valores exclusivos existem na coluna de recursos?
- Qual é a média e o desvio padrão de cada coluna?
O módulo calcula as pontuações importantes de cada coluna e retorna uma linha de estatísticas de resumo para cada variável (coluna de dados) fornecida como entrada.
Dica
Talvez você já saiba que pode obter uma breve lista de estatísticas usando a opção Visualizar no Studio (clássico). No entanto, essa visualização é criada com base em um número superior de linhas. Por outro lado, o módulo Resumir Dados calcula suas estatísticas em todas as linhas de dados.
Como usar Resumir Dados
Adicione o módulo Resumir Dados ao seu experimento. Você pode encontrar este módulo na categoria Funções Estatísticas no Studio (clássico).
Conecte o conjunto de dados para gerar o relatório.
Se você quiser fazer o relatório de apenas algumas colunas, use o módulo Selecionar colunas no conjunto de dados para projetar um subconjunto de colunas para trabalhar.
Nenhum parâmetro adicional é necessário. Por padrão, o módulo analisa todas as colunas fornecidas como entrada e, dependendo do tipo de valores nas colunas, gera um conjunto de estatísticas relevante, como descrito na seção Resultados.
Execute o experimento ou clique com o botão direito do mouse no módulo e selecione Executar selecionado.
Resultados
O relatório do módulo pode incluir as estatísticas a seguir.
As estatísticas exatas geradas dependem do tipo de dados da coluna. Consulte a seção Notas técnicas para obter detalhes.
É feita a suposição de que as instâncias pertencem a uma amostra representativa de uma população. Se você precisar calcular estatísticas em uma população, use as opções no módulo Estatísticas Elementares de Computação, que pode computar estatísticas de amostra ou população.
Nome da coluna | Descrição |
---|---|
Recurso | Nome da coluna |
Count | Contagem de todas as linhas |
Contagem de valores exclusivos | Número de valores exclusivos na coluna |
Contagem de valores ausentes | Número de valores exclusivos na coluna |
Min | Valor mais baixo na coluna |
Max | Valor mais alto na coluna |
Mean | Média de todos os valores de coluna |
Desvio médio | Desvio médio dos valores da coluna |
Primeiro quartil | Valor no primeiro quartil |
Median | Mediana do valor da coluna |
Terceiro quartil | Valor no terceiro quartil |
Modo | Modo de valores de coluna |
Intervalo | Inteiro que representa o número de valores entre os valores máximo e mínimo |
Variância do exemplo | Variância da coluna. Confira a observação |
Desvio padrão do exemplo | Desvio padrão da coluna. Confira a observação |
Assimetria do exemplo | Assimetria da coluna. Confira a observação |
Curtose do exemplo | Curtose da coluna. Confira a observação |
P0.5 | Percentual de 0,5% |
P1 | Percentil 1% |
P5 | Percentil 5% |
P95 | Percentil 95% |
P99,5 | Percentil 99,5% |
Dica
Saída do relatório de estatísticas como um conjuntos de dados tabular, para que você possa usar os dados nas ferramentas de relatório de BI ou usar os valores como entrada para outra operação no experimento.
Exemplos
Para ver exemplos de como usar o módulo Resumir Dados em um experimento, consulte o Galeria de IA do Azure:
Baixar o conjuntos de dados do UCI: lê um conjuntos de dados no formato CSV usando sua URL no repositório UCI Machine Learning e gera algumas estatísticas básicas sobre o conjuntos de dados.
Processamento e análise de conjuntos de dados: carrega o conjuntos de dados no workspace, altera os nomes das colunas e adiciona metadados.
Previsão do desempenho do aluno: lê os dados armazenados no formato TSV do Armazenamento de Blob do Azure.
Observações técnicas
Para colunas numéricas e boolianas, você pode fazer a saída da média, da mediana, do modo e do desvio padrão.
Para colunas não numéricas, apenas os valores para Contagem, Contagem de valor exclusivo e Contagem de valor ausente são calculados. As outras estatísticas retornarão um valor nulo.
As colunas que contêm valores boolianos são processadas com estas regras:
Ao calcular Mín, um AND lógico é aplicado.
Ao calcular Max, um OR lógico é aplicado
Ao calcular Intervalo, o módulo primeiro verifica se o número de valores exclusivos na coluna é igual a 2.
Ao calcular qualquer estatística que requeira cálculos de ponto flutuante, os valores True são tratados como 1,0 e os valores False são tratados como 0,0.
Entradas esperadas
Nome | Tipo | Descrição |
---|---|---|
Dataset | Tabela de Dados | Conjunto de dados de entrada |
Saída
Nome | Tipo | Descrição |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Um perfil do conjunto de dados de entrada que contém estatísticas descritivas |
Exceções
Exceção | Descrição |
---|---|
Erro 0003 | Ocorrerá uma exceção se uma ou mais entradas forem nulas ou estiverem vazias. |
Erro 0020 | Ocorre uma exceção se o número de colunas em alguns dos conjuntos de dados transmitidos para o módulo for muito pequeno. |
Erro 0021 | Ocorre uma exceção se o número de linhas em alguns dos conjuntos de dados passados para o módulo for muito pequeno. |
para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.
para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.