Examinar os dados do mundo real

Concluído

Os dados apresentados no material educacional geralmente são incrivelmente perfeitos, projetados para mostrar aos alunos como encontrar relações claras entre as variáveis. Os dados do "mundo real" não são tão simples.

Devido à complexidade dos dados do "mundo real", precisamos inspecionar os dados brutos em busca de problemas antes de usá-los.

Dessa forma, a melhor prática é inspecionar e processar os dados brutos antes do uso, o que reduz erros ou problemas, normalmente removendo pontos de dados errados ou modificando os dados para que se tornem mais úteis.

Problemas de dados do mundo real

Os dados do mundo real podem conter vários problemas diferentes que podem afetar a utilidade dos dados e nossa interpretação dos resultados.

É importante perceber que a maioria dos dados do mundo real é influenciada por fatores que não foram registrados no momento. Por exemplo, podemos ter uma tabela de tempos de circuito de carros de corrida com os tamanhos dos motores, mas haverá vários outros fatores que não foram anotados, como o clima, que provavelmente também tiveram influência. Se isso for problemático, em geral, podemos reduzir a influência desses fatores aumentando o tamanho do conjuntos de dados.

Em outras situações, os pontos de dados que estejam claramente fora do esperado, também conhecidos como "exceções", às vezes, podem ser removidos com segurança das análises, embora seja necessário termos cuidado para não remover pontos de dados que fornecem insights reais.

Outro problema comum nos dados do mundo real é o preconceito. O desvio se refere a uma tendência em selecionar determinados tipos de valores com mais frequência do que outros de forma a representar incorretamente a população subjacente ou o "mundo real". Às vezes, é possível identificar os preconceitos explorando os dados, tendo em mente o conhecimento básico sobre de onde os dados vieram.

Os dados do mundo real sempre terão problemas, mas os cientistas de dados geralmente conseguem superá-los:

  • Verificando se há valores ausentes e dados registrados incorretamente.
  • Considerando a possibilidade de remover as exceções óbvias.
  • Examinando quais fatores do mundo real podem afetar a análise e determinando se o tamanho do conjunto de dados é grande o suficiente para reduzir o impacto desses fatores.
  • Verificando os dados brutos tendenciosos e considerando as opções para corrigir o desvio, se encontrado.