Resumir Dados
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Gera um relatório básico de estatísticas descritivas para as colunas num conjunto de dados
Categoria: Funções Estatísticas
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Visão geral do módulo
Este artigo descreve como utilizar o módulo de Dados Sumize em Machine Learning Studio (clássico), para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.
Tais estatísticas sumárias são úteis quando se pretende compreender as características do conjunto completo de dados. Por exemplo, talvez precise de saber:
- Quantos valores em falta há em cada coluna?
- Quantos valores únicos existem numa coluna de recursos?
- Qual é o desvio médio e padrão para cada coluna?
O módulo calcula as pontuações importantes para cada coluna e devolve uma linha de estatísticas sumárias para cada variável (coluna de dados) fornecida como entrada.
Dica
Já pode saber que pode obter uma pequena lista de estatísticas utilizando a opção Visualize em Studio (clássico). No entanto, esta visualização é criada com base em alguns números superiores de linhas. Em contraste, o módulo Summarize Data calcula as suas estatísticas em todas as linhas de dados.
Como utilizar o Resumo dados
Adicione o módulo de Dados Sumário à sua experiência. Pode encontrar este módulo na categoria Funções Estatísticas em Estúdio (clássico).
Ligação o conjunto de dados para o qual pretende gerar um relatório.
Se pretender reportar apenas algumas colunas, utilize o módulo Colunas Select no conjunto de dados para projetar um subconjunto de colunas para trabalhar.
Não são necessários parâmetros adicionais. Por predefinição, o módulo analisa todas as colunas fornecidas como entrada, e dependendo do tipo de valores nas colunas, produz um conjunto relevante de estatísticas conforme descrito na secção Resultados .
Executar a experiência, ou clicar no módulo à direita, e selecione Executar selecionado.
Resultados
O relatório do módulo pode incluir as seguintes estatísticas.
As estatísticas exatas que são geradas dependem do tipo de dados da coluna. Consulte a secção de notas técnicas para mais detalhes.
Supõe-se que os casos pertencem a uma amostra representativa de uma população. Se precisar de calcular estatísticas sobre uma população, utilize as opções no módulo de Estatísticas Elementares computacional , que pode calcular as estatísticas da amostra ou da população.
Nome da coluna | Description |
---|---|
Funcionalidade | Nome da coluna |
Contagem | Contagem de todas as linhas |
Contagem de valor única | Número de valores únicos na coluna |
Contagem de valor em falta | Número de valores únicos na coluna |
Rio Min | Valor mais baixo na coluna |
Max | Valor mais alto na coluna |
Média | Média de todos os valores da coluna |
Desvio médio | Desvio médio dos valores das colunas |
1º Quartil | Valor no primeiro quartil |
Mediana | Valor mediano da coluna |
3º Quartil | Valor no terceiro quartil |
Modo | Modo de valores de coluna |
Intervalo | Inteiro representando o número de valores entre os valores máximo e mínimo |
Variação da amostra | Variação para coluna; ver Nota |
Desvio padrão da amostra | Desvio padrão para coluna; ver Nota |
Distorção da amostra | Skewness para a coluna; ver Nota |
Amostra de Kurtose | Kurtosis para coluna; ver Nota |
P0.5 | 0,5% percentil |
P1 | 1% percentil |
P5 | Percentil de 5% |
P95 | Percentil de 95% |
P99.5 | Percentil de 99,5% |
Dica
A produção do relatório estatístico como um conjunto de dados tabular, para que possa utilizar os dados em ferramentas de reporte de BI, ou utilizar os valores como entrada para outra operação na experiência.
Exemplos
Por exemplo, como utilizar o módulo De Dados Sumário numa experiência, consulte a Galeria Azure AI:
Conjunto de dados de descarregamento da UCI: Lê um conjunto de dados no formato CSV utilizando o seu URL no Repositório Machine Learning UCI, e gera algumas estatísticas básicas sobre o conjunto de dados.
Processamento e Análise do Conjunto de Dados: Carrega o conjunto de dados no espaço de trabalho, altera os nomes das colunas e adiciona metadados.
Previsão do desempenho do aluno: Lê dados armazenados em formato TSV a partir do armazenamento Azure Blob.
Notas técnicas
Para colunas numéricas e booleanas, pode desausar o desvio médio, mediano, e padrão.
Para colunas não numéricas, apenas são calculados os valores para Conde, contagem de valor único e contagem de valor em falta . Para outras estatísticas, é devolvido um valor nulo.
As colunas que contêm valores Boolean são processadas utilizando estas regras:
Ao calcular Min, é aplicado um E lógico.
Ao calcular Max, um OR lógico é aplicado
Ao calcular Range, o módulo verifica primeiro se o número de valores únicos na coluna é igual a 2.
Ao calcular qualquer estatística que exija cálculos de pontos flutuantes, os valores de True são tratados como 1.0, e os valores de False são tratados como 0.0.
Entradas esperadas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados | Tabela de Dados | Conjunto de dados de entrada |
Saída
Nome | Tipo | Description |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Um perfil do conjunto de dados de entrada que contém estatísticas descritivas |
Exceções
Exceção | Description |
---|---|
Erro 0003 | A exceção ocorre se uma ou mais entradas forem nulas ou vazias. |
Erro 0020 | A exceção ocorre se o número de colunas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno. |
Erro 0021 | A exceção ocorre se o número de linhas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno. |
Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.
Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.