Partilhar via


Resumir Dados

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Gera um relatório básico de estatísticas descritivas para as colunas num conjunto de dados

Categoria: Funções Estatísticas

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como utilizar o módulo de Dados Sumize em Machine Learning Studio (clássico), para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.

Tais estatísticas sumárias são úteis quando se pretende compreender as características do conjunto completo de dados. Por exemplo, talvez precise de saber:

  • Quantos valores em falta há em cada coluna?
  • Quantos valores únicos existem numa coluna de recursos?
  • Qual é o desvio médio e padrão para cada coluna?

O módulo calcula as pontuações importantes para cada coluna e devolve uma linha de estatísticas sumárias para cada variável (coluna de dados) fornecida como entrada.

Dica

Já pode saber que pode obter uma pequena lista de estatísticas utilizando a opção Visualize em Studio (clássico). No entanto, esta visualização é criada com base em alguns números superiores de linhas. Em contraste, o módulo Summarize Data calcula as suas estatísticas em todas as linhas de dados.

Como utilizar o Resumo dados

  1. Adicione o módulo de Dados Sumário à sua experiência. Pode encontrar este módulo na categoria Funções Estatísticas em Estúdio (clássico).

  2. Ligação o conjunto de dados para o qual pretende gerar um relatório.

    Se pretender reportar apenas algumas colunas, utilize o módulo Colunas Select no conjunto de dados para projetar um subconjunto de colunas para trabalhar.

  3. Não são necessários parâmetros adicionais. Por predefinição, o módulo analisa todas as colunas fornecidas como entrada, e dependendo do tipo de valores nas colunas, produz um conjunto relevante de estatísticas conforme descrito na secção Resultados .

  4. Executar a experiência, ou clicar no módulo à direita, e selecione Executar selecionado.

Resultados

O relatório do módulo pode incluir as seguintes estatísticas.

  • As estatísticas exatas que são geradas dependem do tipo de dados da coluna. Consulte a secção de notas técnicas para mais detalhes.

  • Supõe-se que os casos pertencem a uma amostra representativa de uma população. Se precisar de calcular estatísticas sobre uma população, utilize as opções no módulo de Estatísticas Elementares computacional , que pode calcular as estatísticas da amostra ou da população.

Nome da coluna Description
Funcionalidade Nome da coluna
Contagem Contagem de todas as linhas
Contagem de valor única Número de valores únicos na coluna
Contagem de valor em falta Número de valores únicos na coluna
Rio Min Valor mais baixo na coluna
Max Valor mais alto na coluna
Média Média de todos os valores da coluna
Desvio médio Desvio médio dos valores das colunas
1º Quartil Valor no primeiro quartil
Mediana Valor mediano da coluna
3º Quartil Valor no terceiro quartil
Modo Modo de valores de coluna
Intervalo Inteiro representando o número de valores entre os valores máximo e mínimo
Variação da amostra Variação para coluna; ver Nota
Desvio padrão da amostra Desvio padrão para coluna; ver Nota
Distorção da amostra Skewness para a coluna; ver Nota
Amostra de Kurtose Kurtosis para coluna; ver Nota
P0.5 0,5% percentil
P1 1% percentil
P5 Percentil de 5%
P95 Percentil de 95%
P99.5 Percentil de 99,5%

Dica

A produção do relatório estatístico como um conjunto de dados tabular, para que possa utilizar os dados em ferramentas de reporte de BI, ou utilizar os valores como entrada para outra operação na experiência.

Exemplos

Por exemplo, como utilizar o módulo De Dados Sumário numa experiência, consulte a Galeria Azure AI:

Notas técnicas

  • Para colunas numéricas e booleanas, pode desausar o desvio médio, mediano, e padrão.

  • Para colunas não numéricas, apenas são calculados os valores para Conde, contagem de valor único e contagem de valor em falta . Para outras estatísticas, é devolvido um valor nulo.

  • As colunas que contêm valores Boolean são processadas utilizando estas regras:

    • Ao calcular Min, é aplicado um E lógico.

    • Ao calcular Max, um OR lógico é aplicado

    • Ao calcular Range, o módulo verifica primeiro se o número de valores únicos na coluna é igual a 2.

    • Ao calcular qualquer estatística que exija cálculos de pontos flutuantes, os valores de True são tratados como 1.0, e os valores de False são tratados como 0.0.

Entradas esperadas

Nome Tipo Description
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Saída

Nome Tipo Description
Conjunto de dados de resultados Tabela de Dados Um perfil do conjunto de dados de entrada que contém estatísticas descritivas

Exceções

Exceção Description
Erro 0003 A exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0020 A exceção ocorre se o número de colunas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno.
Erro 0021 A exceção ocorre se o número de linhas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.

Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.

Ver também

Funções Estatísticas
Estatísticas Elementares do Cálculo