Resumo
Cobrimos muito terreno. Vamos rever algumas das principais mensagens.
O que são categorias de dados?
Os dados dividem-se em várias categorias conceptuais. Os mais comuns são:
- Dados contínuos (números).
- Dados categóricos que não têm ordem.
- Dados ordinais, que podem ser tratados como números ou categorias ordenadas.
Os computadores armazenam dados como tipos distintos, e geralmente tentamos fazer corresponder o tipo de dados aos dados específicos. Por exemplo, para armazenar dados contínuos, os números de vírgula flutuante funcionam melhor porque os números de vírgula flutuante permitem o armazenamento de frações. Por outro lado, os dados categóricos geralmente chegam como strings (texto) e devem ser convertidos em vetores one-hot para que o computador os compreenda corretamente.
O que faz um bom conjunto de dados?
Aprendemos que um conjunto de dados é útil se:
- Contém informações relevantes.
- Está completo.
- É uma boa representação da população (mundo real).
Se tivermos de lidar com dados incompletos, podemos tomar medidas para garantir que os dados incompletos não causem problemas significativos. Ao fazê-lo, devemos evitar a introdução de novas questões, tais como alterações que tornariam os dados menos representativos.
Pensar nos dados
Mostramos como a visualização de dados pode ajudar a construir uma compreensão do que pode ser útil em um modelo. O uso de diferentes tipos de gráficos, cores e afins pode ser divertido e tornar informações complexas muito mais intuitivas.
Aprendemos que entender nossos dados nos permite tomar melhores decisões sobre nossos modelos. No exercício final, melhorámos o nosso modelo à medida que explorávamos a contagem de cabines no Titanic e considerámos como esta informação nos ajudou. No entanto, no geral, descobrimos que poderíamos melhorar isso através da simplificação em nove rótulos Deck.