Partilhar via


Explorando e limpando dados

A preparação dos dados é muito mais do que limpeza de dados. Lembre-se de que o modo como os dados são preparados também afeta como os resultados são interpretados no final. A preparação dos dados envolve as seguintes tarefas:

  • Exploração e verificação da distribuição dos dados.

  • Limpeza de registros incorretos e escolha das colunas para a mineração de dados.

  • Tratamento incorreto de nulos.

  • Compartimentalização ou agregação de valores por diferentes partes de tempo.

  • Adição de rótulos para aumentar a usabilidade dos resultados.

  • Conversão dos tipos de dados ou categorização de valores se necessário para análise.

Se você for novo na modelagem de dados, recomendamos que leia o tópico relacionado, Lista de verificação de preparação para mineração de dados.

Ferramentas de preparação de dados

Os Suplementos de Mineração de Dados para Office incluem as seguintes ferramentas para limpeza e preparação dos dados:

Explorar Dados

Use o Assistente para Explorar Dados para estas tarefas de preparação de dados:

  • Visualize seus dados e identifique erros que devem ser corrigidos antes da análise.

  • Colete informações estatísticas úteis para entender o equilíbrio dos dados e as tarefas de limpeza necessárias.

  • Identifique colunas que sejam úteis para análise e planeje a fase de modelagem de dados.

Explorar dados (SQL Server suplementos de mineração de dados).

Detectar exceções e lidar com elas

O assistente outliers grafa a distribuição de valores em seus dados e ajuda a remover valores extremos. Use a ferramenta Outliers para as seguintes tarefas de preparação de dados:

  • Determine se valores individuais são confiáveis, com base em padrões encontrados nos dados.

  • Examine os valores incomuns e tome uma ação ao excluí-los ou substituí-los.

  • Faça um escopo de um modelo para um intervalo de valores específicos. Por exemplo, se você souber que tem exceções em um armazenamento em particular, poderá eliminar esse valor e obter um modelo que preveja melhor outros armazenamentos.

Exceções (SQL Server suplementos de mineração de dados).

Rotular Novamente e Guardar Dados

O assistente relançar agrupa dados por valores para que você possa alterar os rótulos nos dados. Use a ferramenta Rotular Novamente para estas tarefas de preparação de dados:

  • Altere códigos numéricos usados nos resultados da pesquisa para uma descrição textual do significado do código numérico.

    Por exemplo, você pode substituir entradas de dados como Sexo = 1 por Sexo = Feminino.

  • Guarde os dados, criando grupos que representam intervalos de número.

    Por exemplo, talvez você queira substituir uma coluna Renda de números por rótulos como Renda - Moderada e Renda - Alta.

  • Recolher valores discretos em categorias.

    Por exemplo, se você tiver muitos produtos individuais para detectar um padrão entre compras, poderá tentar atribuir produtos em categorias mais amplas.

Rotular novamente (Suplementos de Mineração de Dados do SQL Server)

Limpar dados

A limpeza de dados inclui uma ampla gama de atividades, a maioria das quais têm suporte pelos suplementos

  • Identificar nulos e determinar se devem ser alterados para um valor real ou se devem ser tratados como valores Missing.

  • Detecte valores ausentes e remova-os ou impute um valor adequado, como um valor médio, nulo ou outro.

Explorar dados (Suplementos de Mineração de Dados do SQL Server)

Rotular novamente (Suplementos de Mineração de Dados do SQL Server)

Preencher com Base no Exemplo

Dados de Amostra

O assistente de Dados de Amostra fornece dois métodos para criar conjuntos de dados balanceados para modelos de treinamento e teste.

  • Amostragem aleatória. Use esta opção para extrair um conjunto representativo de dados de um conjunto de dados maior, para usar em treinamento ou teste. Os Suplementos de Mineração de Dados usam amostragem estratificada para garantir que um conjunto equilibrado de valores seja obtido para cada variável amostrada.

  • Sobreamostragem. Use essa opção quando você tiver menos dados do que desejar para um resultado de destino, e precisar pesar esses dados de maneira mais pesada. Por exemplo, a fraude pode ser relativamente rara, mas você pode sobreamostrar os casos que envolvem fraude para obter dados suficientes para modelagem.

Dados de exemplo (SQL Server suplementos de mineração de dados).

Consulte Também

Criar um modelo de mineração de dados
Validando modelos e usando modelos para previsão (suplementos de mineração de dados para Excel)
Implantando e dimensionando modelos de mineração (Suplementos de Mineração de Dados para Excel)