Tratar dados ausentes
Dados ausentes referem-se à falta de valores em determinadas variáveis dentro de um conjunto de dados.
Lidar com dados ausentes é um aspecto crucial da fase de pré-processamento em um projeto de machine learning e a maneira como você os trata pode afetar significativamente o desempenho do seu modelo.
Verifique se há dados ausentes
Voltando ao cenário de preços de casas da unidade anterior, vamos supor que encontramos valores ausentes em nosso dataframe df
que exigem atenção.
Para verificar se há dados ausentes no Estruturador de Dados, você precisa primeiro iniciar o Estruturador de Dados a partir de um notebook do Microsoft Fabric. Quando estiver lá, você terá algumas opções.
- Cabeçalho da coluna: Mostra a quantidade e a proporção de valores ausentes para cada variável na parte superior da grade.
- Painel de resumo: Realça as estatísticas de resumo para a coluna ou o dataframe selecionado, incluindo valores ausentes.
- Operador de filtro: Filtra as linhas com base em uma ou mais condições. Essa opção também está disponível no cabeçalho da coluna quando você seleciona Mais opções para a coluna.
Manipular dados ausentes
Existem algumas opções sobre como lidar com dados ausentes.
Ignorar: Dados mínimos ausentes podem não afetar significativamente seu modelo.
Remover: Pode ser melhor remover linhas ou colunas com muitos valores ausentes.
Imputar: Preencha os valores ausentes com um valor ou estimativa especificado (como médio, mediano, modo ou por meio de um algoritmo de aprendizado de máquina, como K-Vizinho mais próximo (KNN)).
Usar como novo recurso: Às vezes, o fato de um valor estar ausente pode ser usado como uma informação. Por exemplo, em uma pesquisa de produto, perguntas sem resposta sobre como recomendar o produto podem indicar a insatisfação do cliente. Nesse caso, a ausência da resposta pode ser um novo recurso que indica uma probabilidade de insatisfação do cliente.
Remover valores ausentes
As etapas a seguir mostram como remover linhas com valores ausentes nas colunas de destino no Estruturador de Dados.
No painel Operações, selecione Localizar e substituir e, em seguida, selecione Remover valores ausentes.
Selecione a coluna Preço.
As linhas marcadas para exclusão são realçadas em vermelho dentro da grade e adicionadas ao painel Etapas de limpeza. Essa indicação visual não só aumenta a agilidade, mas também permite ajustes, se necessário.
Escolha Aplicar. As mudanças estão em vigor e a grade aplica a etapa.
Acrescentar valores ausentes
Quando um conjunto de dados tem dados ausentes, você pode usar vários métodos de imputação para preencher essas lacunas. Cada método tem suas próprias vantagens e é adequado para diferentes tipos de dados e situações.
Compreender esses métodos pode ajudá-lo a escolher a estratégia mais apropriada para lidar com dados ausentes em seu contexto específico.
Método | Descrição |
---|---|
Mean | Substitui os valores ausentes pelo valor médio dessa variável. É adequado para dados contínuos sem exceções. |
Median | Substitui os valores ausentes pelo valor mediano (meio) dessa variável. É mais robusto para exceções do que a médio. |
Modo | Substitui os valores ausentes pelo valor de modo (mais frequente) dessa variável. É adequado para dados categóricos. |
Propagar para a frente | Preenche valores ausentes com o valor válido anterior no conjunto de dados. Também conhecido como preenchimento para frente. |
Propagar para trás | Preenche valores ausentes com o próximo valor válido no conjunto de dados. Também conhecido como preenchimento para trás. |
Valor personalizado | Substitui valores ausentes por um valor constante definido pelo usuário. Isso pode ser qualquer valor que faça sentido no contexto dos dados. |
As etapas a seguir mostram como preencher ou imputar valores ausentes nas colunas de destino usando o valor mediano, por exemplo.
No painel Operações, selecione Localizar e substituir e, em seguida, selecione Preencher valores ausentes.
Selecione a coluna YearBuilt e, em seguida, selecione o método de preenchimento Mediana.
As linhas marcadas para imputação estão realçadas em vermelho dentro da grade e adicionadas ao painel Etapas de limpeza. Essa indicação visual facilita as modificações em tempo real quando necessário.
Escolha Aplicar.
As alterações são imediatamente visíveis na grade de exibição do Estruturador de Dados, fornecendo uma visão em tempo real de como a operação afeta seu conjunto de dados.
Como alternativa, você pode usar o operador de Operação personalizada para criar seu próprio código de imputação.
Para saber mais sobre dados ausentes, consulte Explorar dados para ciência de dados com notebooks no Microsoft Fabric.