Resumo
Nós abordamos muito conteúdo. Vamos revisar algumas das principais mensagens.
O que são categorias de dados?
Os dados se enquadram em várias categorias conceituais. As mais comuns são:
- Dados contínuos (números).
- Dados categóricos que não têm nenhuma ordem.
- Dados ordinais, que podem ser tratados como números ou categorias ordenadas.
Os computadores armazenam dados como tipos distintos, e geralmente tentamos combinar o tipo de dados com os dados específicos. Por exemplo, para armazenar dados contínuos, os números de ponto flutuante funcionam melhor, pois eles permitem o armazenamento de frações. Por outro lado, os dados categóricos geralmente chegam como cadeias de caracteres (texto) e devem ser convertidos em vetores one-hot para que o computador os entenda corretamente.
O que torna um conjunto de dados bom?
Aprendemos que um conjunto de dados será útil se:
- Ele contém informações relevantes.
- Está completo.
- É uma boa representação da população (mundo real).
Se precisarmos lidar com os dados incompletos, podemos tomar medidas para garantir que os dados incompletos não causem problemas significativos. Ao fazer isso, devemos evitar a introdução de novos problemas, como alterações que tornariam os dados não mais representativos.
Pensando em dados
Mostramos como a visualização de dados pode ajudar a entender o que pode ser útil em um modelo. O uso de diferentes tipos de gráficos, cores e similares pode ser divertido e tornar informações complexas muito mais intuitivas.
Aprendemos que entender os dados nos permite tomar decisões melhores sobre os modelos. No exercício final, melhoramos nosso modelo à medida que exploramos a contagem de cabines no Titanic, e consideramos como essas informações nos ajudaram. No entanto, no geral, descobrimos que poderíamos melhorar isso por meio da simplificação em nove rótulos de Deck.