Examine dados do mundo real

Concluído

Os dados apresentados no material educacional são muitas vezes notavelmente perfeitos, projetados para mostrar aos alunos como encontrar relações claras entre variáveis. Os dados do "mundo real" são um pouco menos simples.

Devido à complexidade dos dados do "mundo real", temos que inspecionar os dados brutos em busca de problemas antes de usá-los.

Como tal, a melhor prática é inspecionar os dados brutos e processá-los antes de usá-los, o que reduz erros ou problemas normalmente removendo pontos de dados errados ou modificando os dados em uma forma mais útil.

Problemas de dados do mundo real

Os dados do mundo real podem conter muitos problemas diferentes que podem afetar a utilidade dos dados e a nossa interpretação dos resultados.

É importante perceber que a maioria dos dados do mundo real é influenciada por fatores que não foram registrados na época. Por exemplo, podemos ter uma tabela de tempos de pista de carros de corrida juntamente com os tamanhos dos motores; Mas vários outros fatores que não foram anotados, como o clima, provavelmente também desempenharam um papel. Se for problemático, muitas vezes podemos reduzir a influência desses fatores aumentando o tamanho do conjunto de dados.

Em outras situações, os pontos de dados que estão claramente fora do esperado – também conhecidos como "outliers" – às vezes podem ser removidos com segurança das análises, embora devamos tomar cuidado para não remover pontos de dados que fornecem insights reais.

Outro problema comum em dados do mundo real é o preconceito. O enviesamento refere-se a uma tendência para selecionar certos tipos de valores com mais frequência do que outros de uma forma que deturpa a população subjacente, ou "mundo real". Às vezes, o viés pode ser identificado explorando os dados, tendo em mente o conhecimento básico sobre a origem dos dados.

Os dados do mundo real sempre terão problemas, mas os cientistas de dados muitas vezes podem superar esses problemas ao:

  • Verificação de valores em falta e dados mal registados.
  • Considerar a remoção de valores anómalos óbvios.
  • Examinar quais fatores do mundo real podem afetar sua análise e determinar se o tamanho do conjunto de dados é grande o suficiente para reduzir o impacto desses fatores.
  • Verificar se há dados brutos tendenciosos e considerar suas opções para corrigir o viés, se encontrado.