Dados bons, ruins e ausentes

Concluído

Como efeito colateral da influência dos dados no aprendizado de máquina, os modelos treinados apenas em pequenas quantidades de dados raramente têm um bom desempenho no mundo real. Esse comportamento ocorre porque pequenas quantidades de dados geralmente não servem como boas representações do mundo real. Por exemplo, quatro pessoas selecionadas aleatoriamente na Terra não representaria de forma confiável a média das pessoas. Por outro lado, se selecionarmos um bilhão de pessoas, nossos dados provavelmente serão representativos.

Contudo, outros fatores também são importantes. Precisamos de amostras de dados grandes e representativas que:

  • Não tenham erros.
  • Contenham todas as informações-chave.

Abordaremos essas questões aqui, antes de passarmos para um exercício prático envolvendo nosso conjunto de dados do Titanic.

“Representante” – O que isso significa?

Os estatísticos contam com dois conceitos-chave: populações e amostras, para decidir se os recursos de dados disponíveis realmente ajudam a análise e o estudo.

Nós nos concentramos em uma população. Em outras palavras, cada ponto de dados concebível. Para nosso cenário do Titanic, queremos saber quais fatores levaram à sobrevivência de todos a bordo. Isso inclui passageiros clandestinos não listados nos registros oficiais. Como segundo exemplo, para investigar a relação entre características de personalidade e probabilidade de um navio afundar, nossa população cobriria todos os capitães de navios que já viveram.

Uma amostra se refere aos dados disponíveis para nós, como um subconjunto da população total. Para nosso conjunto de dados do Titanic, esta amostra engloba apenas as pessoas que estão na lista de passageiros oficial. Para nosso segundo exemplo, a amostra pode englobar todos os capitães de navio que pudermos convencer a fazer um teste de personalidade na marina local.

Precisamos considerar se a amostra representa com precisão a população. Para nosso exemplo do Titanic, nossa amostra é tão grande que provavelmente serve como uma boa representação da população. Em contraste, conversas com apenas capitães de navios em nossa marina local provavelmente não nos fornecem uma boa seção transversal dos marinheiros que encontraríamos em todo o mundo. Os dados de nossa marina local podem criar um modelo que funciona bem para capitães locais, mas não nos ajudam a entender capitães de outros países/regiões.

O que é um erro de dados?

O termo erros de dados refere-se a dados incorretos. Suficientes erros de dados podem distorcer um modelo, de modo que ele faça previsões incorretas de forma consistente. É simples: se você inserir dados incorretos, você obterá previsões ruins.

Erros nos dados são um fato da vida e podemos agrupá-los em duas categorias, erros de medição e erros de entrada de dados.

O termo erros de medida refere-se a dados com medidas de baixa qualidade na fase de coleta de dados. Esses erros geralmente são sutis e difíceis ou impossíveis de eliminar.

O termo erros de entrada de dados refere-se a dados coletados com precisão, mas, em seguida, incorretamente ou imprecisamente colocados em uma planilha ou recurso de gerenciamento de dados. Às vezes, é mais fácil detectarmos erros de entrada de dados do que erros de medição. Por exemplo, podemos medir uma pessoa e determinar que ela tem 1,8 metro de altura, mas esquecer de adicionar a pontuação decimal e escrever 18 metros. Esse tipo de erro pode ser facilmente identificado, porque uma pessoa do tamanho de uma árvore é algo irreal.

O que são dados completos?

Um conjunto de dados completo não tem dados ausentes. Há dois tipos de dados ausentes. Esses dados mostram a altura e o peso de Dylan, Reece e Tom:

Nome Altura (m) Peso (kg)
Dylan 1.8 75
Reece 82

Os dados estão incompletos devido a uma amostra ausente: Tom. Além disso, os dados de Reece não mostram a altura de Reece.

Idealmente, sempre trabalhamos com dados completos, mas nem sempre todos os dados estão disponíveis para nós. Para dados incompletos, podemos fazer um dos seguintes procedimentos:

  • Escolher um modelo que possa trabalhar usando dados incompletos.
  • Remover amostras (linhas) com dados incompletos e trabalhar com o restante dos dados.
  • Adicionar valores artificialmente como substitutos razoáveis para os dados ausentes.

Na maioria das vezes, escolher um modelo que possa lidar com dados ausentes funciona melhor, embora isso nem sempre seja possível. A remoção de dados incompletos é a abordagem mais fácil e geralmente funciona. No entanto, devemos ter cuidado para que a remoção de dados não faça com que um exemplo deturpe a população. Adicionar dados artificialmente geralmente é um método usado como último recurso.

Na próxima unidade, trabalharemos com nosso conjunto de dados do Titanic para identificar e corrigir dados incompletos.