Lidar com dados ausentes

Concluído

Dados ausentes referem-se à falta de valores em determinadas variáveis dentro de um conjunto de dados.

Lidar com dados ausentes é um aspeto crucial da fase de pré-processamento em um projeto de aprendizado de máquina, e a maneira como você os trata pode afetar significativamente o desempenho do seu modelo.

Verificar se há dados ausentes

De volta ao cenário dos preços das casas da unidade anterior, vamos supor que encontramos valores ausentes em nosso df dataframe que exigem atenção.

Para verificar se há dados ausentes no Data Wrangler, você precisa primeiro iniciar o Data Wrangler a partir de um bloco de anotações do Microsoft Fabric. Uma vez lá, você tem algumas opções.

Captura de tela de como verificar informações de dados ausentes no Data Wrangler.

  1. Cabeçalho da coluna: mostra a contagem e a proporção de valores ausentes para cada variável na parte superior da grade.
  2. Painel de resumo: destaca as estatísticas de resumo para a coluna ou quadro de dados selecionado, incluindo valores ausentes.
  3. Operador de filtro: filtra linhas com base em uma ou mais condições. Essa opção também está disponível no cabeçalho da coluna quando você seleciona Mais opções para a coluna.

Tratamento de dados em falta

Existem algumas opções sobre como lidar com dados ausentes.

  • Ignorar: o mínimo de dados ausentes pode não afetar significativamente seu modelo.

  • Remover: Linhas ou colunas com muitos valores ausentes podem ser melhor removidas.

  • Imputar: preencha os valores em falta com um valor ou estimativa especificado (como média, mediana, modo ou usando um algoritmo de aprendizagem automática como K-Nearest Neighbors (KNN)).

  • Use-o como um novo recurso: Às vezes, o fato de que um valor está faltando pode ser usado como informação em si. Por exemplo, em uma pesquisa de produto, perguntas sem resposta sobre a recomendação do produto podem indicar insatisfação do cliente. Neste caso, a não resposta pode ser um novo recurso indicando uma probabilidade de insatisfação do cliente.

Remover valores em falta

As etapas a seguir mostram como remover linhas com valores ausentes na(s) coluna(s) de destino no Data Wrangler.

  1. No painel Operações, selecione Localizar e substituir e, em seguida, selecione Soltar valores ausentes.

  2. Selecione a coluna Preço .

    Captura de tela de como soltar linhas com valores ausentes nas colunas de destino no Data Wrangler.

    As linhas marcadas para exclusão são realçadas em vermelho na grade e adicionadas ao painel Etapas de limpeza. Esta sugestão visual não só aumenta a agilidade, mas também permite ajustes, se necessário.

  3. Selecione Aplicar. As alterações estão em vigor e a grelha aplica o passo.

Imputar valores em falta

Quando um conjunto de dados tem dados ausentes, você pode usar vários métodos de imputação para preencher essas lacunas. Cada método tem suas próprias vantagens e é adequado para diferentes tipos de dados e situações.

Compreender esses métodos pode ajudá-lo a escolher a estratégia mais apropriada para lidar com dados ausentes em seu contexto específico.

Método Description
Média Substitui os valores em falta pelo valor médio (médio) dessa variável. É adequado para dados contínuos sem valores atípicos.
Mediana Substitui os valores em falta pelo valor mediano (médio) dessa variável. É mais robusto para outliers do que a média.
Modo Substitui os valores em falta pelo valor de modo (mais frequente) dessa variável. É adequado para dados categóricos.
Propagar para a frente Preenche os valores ausentes com o valor válido anterior no conjunto de dados. Também conhecido como preenchimento encaminhado.
Propagar para trás Preenche os valores ausentes com o próximo valor válido no conjunto de dados. Também conhecido como preenchimento inverso.
Valor personalizado Substitui os valores ausentes por um valor constante definido pelo usuário. Pode ser qualquer valor que faça sentido no contexto dos dados.

As etapas a seguir mostram como preencher ou imputar valores ausentes nas colunas de destino usando a mediana, por exemplo.

  1. No painel Operações, selecione Localizar e substituir e, em seguida, selecione Preencher valores em falta.

  2. Selecione a coluna YearBuilt e, em seguida, selecione o método de preenchimento Mediano .

    Captura de tela de como imputar valores ausentes nas colunas de destino usando a mediana no Data Wrangler.

    As linhas marcadas para imputação são realçadas em vermelho dentro da grade e adicionadas ao painel Etapas de limpeza. Esta sugestão visual facilita modificações em tempo real quando necessário.

  3. Selecione Aplicar.

    As alterações são imediatamente visíveis na grade de exibição do Data Wrangler, fornecendo uma visão em tempo real de como a operação afeta seu conjunto de dados.

Como alternativa, você pode usar o operador de operação personalizada para criar seu próprio código de imputação.

Para saber mais sobre dados ausentes, consulte Explorar dados para ciência de dados com blocos de anotações no Microsoft Fabric.