Resumo

Concluído

Cobrimos muito terreno. Vamos rever algumas das principais mensagens.

O que são categorias de dados?

Os dados dividem-se em várias categorias conceptuais. Os mais comuns são:

  • Dados contínuos (números).
  • Dados categóricos que não têm ordem.
  • Dados ordinais, que podem ser tratados como números ou categorias ordenadas.

Os computadores armazenam dados como tipos distintos, e geralmente tentamos fazer corresponder o tipo de dados aos dados específicos. Por exemplo, para armazenar dados contínuos, os números de vírgula flutuante funcionam melhor porque os números de vírgula flutuante permitem o armazenamento de frações. Por outro lado, os dados categóricos geralmente chegam como strings (texto) e devem ser convertidos em vetores one-hot para que o computador os compreenda corretamente.

O que faz um bom conjunto de dados?

Aprendemos que um conjunto de dados é útil se:

  • Contém informações relevantes.
  • Está completo.
  • É uma boa representação da população (mundo real).

Se tivermos de lidar com dados incompletos, podemos tomar medidas para garantir que os dados incompletos não causem problemas significativos. Ao fazê-lo, devemos evitar a introdução de novas questões, tais como alterações que tornariam os dados menos representativos.

Pensar nos dados

Mostramos como a visualização de dados pode ajudar a construir uma compreensão do que pode ser útil em um modelo. O uso de diferentes tipos de gráficos, cores e afins pode ser divertido e tornar informações complexas muito mais intuitivas.

Aprendemos que entender nossos dados nos permite tomar melhores decisões sobre nossos modelos. No exercício final, melhorámos o nosso modelo à medida que explorávamos a contagem de cabines no Titanic e considerámos como esta informação nos ajudou. No entanto, no geral, descobrimos que poderíamos melhorar isso através da simplificação em nove rótulos Deck.