Dados bons, ruins e ausentes
Como efeito colateral da influência dos dados no aprendizado de máquina, modelos treinados apenas em pequenas quantidades de dados raramente têm um bom desempenho no mundo real. Esse comportamento acontece porque pequenas quantidades de dados geralmente não servem como boas representações do mundo real. Por exemplo, quatro pessoas selecionadas aleatoriamente na Terra não representariam de forma confiável a pessoa média. Por outro lado, se selecionássemos 1.000.000.000 de pessoas, nossos dados provavelmente se tornariam representativos.
No entanto, outros fatores também têm importância. Precisamos de amostras de dados grandes e representativas que:
- Tem zero erros.
- Conter todas as informações essenciais.
Abordamos essas preocupações aqui, antes de passarmos para um exercício prático envolvendo nosso conjunto de dados do Titanic.
'Representante' - O que isso significa?
Os estatísticos baseiam-se em dois conceitos-chave, populações e amostras, para decidir se os recursos de dados disponíveis realmente ajudam a sua análise e estudo.
Focamo-nos numa população. Por outras palavras, todos os pontos de dados imagináveis. Para o nosso cenário Titanic, queremos saber quais fatores levaram à sobrevivência de todos a bordo. Isto inclui os clandestinos não enumerados nos registos oficiais. Como segundo exemplo, para investigar a relação entre traços de personalidade e probabilidade de um navio afundar, nossa população cobriria todos os capitães de navios que já viveram.
Uma amostra refere-se aos dados de que dispomos, como um subconjunto da população total. Para o nosso conjunto de dados do Titanic, esta amostra abrange apenas as pessoas listadas na lista oficial de passageiros. Para o nosso segundo exemplo, a amostra pode abranger todos os capitães de navios que podemos convencer a fazer um teste de personalidade na nossa marina local.
Precisamos pensar se a amostra representa com precisão a população. Para o nosso exemplo do Titanic, nossa amostra é tão grande que provavelmente serve como uma boa representação da população. Por outro lado, conversas apenas com capitães de navios em nossa marina local provavelmente não nos dão uma boa seção transversal dos marinheiros que encontraríamos em todo o mundo. Os dados da nossa marina local podem construir um modelo que funcione bem para capitães locais, mas não nos ajudam a entender capitães de outros países/regiões.
O que é um erro de dados?
O termo erro de dados refere-se a dados incorretos. Erros de dados suficientes podem distorcer um modelo para que ele faça previsões incorretas de forma consistente. É simples: se você colocar dados ruins, você recebe previsões ruins.
Os erros nos dados são um fato da vida, e podemos agrupá-los em duas categorias, erros de medição e erros de entrada de dados.
O termo erros de medição refere-se a dados com medições de baixa qualidade na fase de recolha de dados. Estes erros são muitas vezes subtis e difíceis ou impossíveis de eliminar.
O termo erros de entrada de dados refere-se a dados coletados com precisão, mas colocados incorretamente ou incorretamente em uma planilha ou recurso de gerenciamento de dados. Às vezes, podemos detetar erros de entrada de dados mais facilmente do que podemos detetar erros de medição. Por exemplo, podemos medir alguém com 1,8 metros de altura, mas errar a casa decimal e escrever 18 metros. Podemos ver facilmente o erro porque uma pessoa do tamanho de uma árvore é irrealista.
O que são dados completos?
Um conjunto de dados completo não tem dados ausentes. Os dados em falta têm dois tipos. Estes dados mostram a altura e o peso de Dylan, Reece e Tom:
Nome | Altura (m) | Peso (kg) |
---|---|---|
Guilherme | 1.8 | 75 |
Reece | 82 |
Os dados estão incompletos devido a uma amostra em falta: Tom. Além disso, os dados para Reece não mostram a altura de Reece.
Idealmente, trabalhamos sempre com dados completos, mas nem sempre temos dados completos disponíveis. Para dados incompletos, podemos fazer o seguinte:
- Escolha um modelo que possa trabalhar com dados incompletos.
- Remova amostras (linhas) com dados incompletos e trabalhe com os dados restantes.
- Adicionar artificialmente valores como substitutos razoáveis para os dados em falta.
Na maioria das vezes, escolher um modelo que possa lidar com dados ausentes funciona melhor, embora isso nem sempre seja possível. A remoção de dados incompletos é a abordagem mais fácil e geralmente funciona. No entanto, devemos ter cuidado para que a remoção de dados não faça com que uma amostra deturpe a população. A adição artificial de dados é geralmente um método de último recurso.
Na próxima unidade, trabalharemos com nosso conjunto de dados do Titanic para identificar e corrigir dados incompletos.