Examinar diferentes tipos de dados

Concluído

Dados são apenas mais uma palavra para a informação recolhida. Os volumes e massas de informação disponíveis são enormes, abrangendo muitos tipos de informação diferentes.

Podemos categorizar os dados de várias maneiras. Para operar no espaço de aprendizado de máquina, devemos entender o tipo e os sistemas de armazenamento digital dos dados disponíveis para nós.

Dados contínuos, ordinais e categóricos

Para operações de dados, às vezes precisamos de consciência do que exatamente os dados representam. Essa consciência pode nos ajudar a escolher o modelo certo de aprendizado de máquina. Também pode ajudar-nos a organizar os nossos dados de formas específicas e úteis.

Dados contínuos referem-se a informações numéricas que podem aumentar ou diminuir em qualquer quantidade. Por exemplo, você pode adicionar um milímetro a um metro e calcular uma soma como 1,001 metros.

Dados categóricos referem-se a dados que não se enquadram em um espectro contínuo. Em nosso cenário, os dados categorizam as pessoas no Titanic como tripulantes ou passageiros. Os dados categóricos não podem ser armazenados como números de uma forma claramente óbvia.

Dados ordinais referem-se a dados categóricos que têm uma ordem definida e, portanto, podem suportar o armazenamento como valores numéricos. Por exemplo, podemos definir valores de grande, médio e pequeno como dados ordinais porque podemos classificá-los numericamente como grandes > médios > pequenos. Por outro lado, os valores maçã, laranja e coco são categóricos porque não podemos classificá-los. Os dados ordinais também podem referir-se a números que podem aumentar ou diminuir, mas apenas por quantidades definidas. Por exemplo, o número de pessoas a embarcar num barco é garantido como um número inteiro, uma vez que ninguém pode fazer meia pensão.

IDs referem-se a um tipo especial de dados categóricos em que cada amostra tem seu próprio ID exclusivo. Por exemplo, cada pessoa em nosso conjunto de dados no Titanic tem um determinado valor de ID, mesmo que essa pessoa tenha o mesmo nome que outra pessoa. Os valores de identidade nos ajudam a navegar em um conjunto de dados, mas nossa análise de dados não envolve diretamente esses valores.

Tipos de dados

Um computador deve armazenar e processar todos os dados que usamos para aprendizado de máquina. Enquanto podemos escrever quase todos os dados em um pedaço de papel com um lápis, os computadores armazenam informações como séries de 0 e 1. Isso impõe restrições à forma como usamos as informações.

Datatype refere-se ao tipo de dados que um computador armazena. Os tipos de dados geralmente têm estas categorias:

  • Números inteiros: contando números como 2.
  • Números de vírgula flutuante: números com casas decimais como 2,43.
  • Cordas: letras e palavras.
  • Booleanos: verdadeiro e falso.
  • Nenhum, nulo ou nulo: não dados, mas sim a ausência de dados.

Os termos exatos e a implementação desses conceitos variam de idioma para idioma, mas todos eles operam de maneira semelhante em todas as linguagens de computador.

Às vezes, dois tipos de dados diferentes oferecem funcionalidade equivalente. Por exemplo, os computadores podem manipular valores verdadeiros/falsos como booleanos (true ou false), strings (y ou n), inteiros (0 ou 1) ou números de vírgula flutuante (0,0 ou 1,0).

Tipos de dados derivados

À medida que usamos a tecnologia, encontramos muitos tipos de dados mais básicos e primitivos além da lista acima. Os computadores podem armazenar datas, imagens, modelos 3D e assim por diante. Referimo-nos a estes como tipos de dados derivados. Começamos com um ou mais tipos de dados primitivos para construir um tipo de dados derivado.

Muitas vezes, no aprendizado de máquina, ajuda a converter tipos derivados em representações mais simples. Por exemplo, podemos armazenar um valor de data definido, como 1º de janeiro de 2017 , como um número inteiro ou de ponto flutuante, como 20170101. Números inteiros ou de ponto flutuante facilitam os cálculos por trás de nossos modelos.

Demasiadas escolhas?

Conhecer o tipo de dados que você tem disponível pode ajudá-lo a escolher o tipo de dados certo.

O tipo de dados correto pode depender do pacote que você usa para executar seus modelos, embora geralmente os pacotes sejam permissivos. Em geral:

  • Para trabalhar com dados contínuos, os números de ponto flutuante tornam-se a melhor escolha.
  • Os dados ordinais normalmente codificam com valores inteiros.
  • Dados categóricos envolvendo apenas duas categorias geralmente podem codificar como dados booleanos ou inteiros. Trabalhar com três ou mais categorias pode tornar-se um pouco mais complicado. Não se preocupe, a próxima aula abordará este tópico!

No próximo exercício, praticaremos a visualização de dados para entender melhor os dados em si. Ao fazer isso, observe cuidadosamente os tipos de dados envolvidos e tente identificar os tipos de dados contínuos, ordinais ou categóricos.