Examinar diferentes tipos de dados

Concluído

Os dados são apenas outra forma de se referir a informações coletadas. Volumes e massas de informações disponíveis são enormes, abrangendo muitos tipos de informações diferentes.

Podemos categorizar os dados de várias maneiras. Para operar no espaço de aprendizado de máquina, devemos entender o tipo e os sistemas de armazenamento digital dos dados disponíveis.

Dados contínuos, ordinais e categóricos

Para operações de dados, às vezes precisamos de reconhecimento do que exatamente os dados representam. Esse reconhecimento pode nos ajudar a escolher o modelo de machine learning certo. Ele também pode nos ajudar a organizar nossos dados de maneiras específicas e úteis.

Dados contínuos referem-se a informações numéricas que podem aumentar ou diminuir em qualquer quantidade. Por exemplo, você pode adicionar um milímetro a um metro e calcular uma soma como 1,001 metros.

Dados categóricos referem-se a dados que não se enquadram em um espectro contínuo. Em nosso cenário, os dados categorizam as pessoas no Titanic como tripulação ou passageiros. Dados categóricos não podem ser armazenados como números de uma forma óbvia.

Dados ordinais referem-se a dados categóricos que têm uma ordem definida e, portanto, podem dar suporte ao armazenamento como valores numéricos. Por exemplo, podemos definir valores de dados grandes, médios e pequenos como ordinais porque podemos classificá-los numericamente: grandes > médios > pequenos. Por outro lado, os valores maçã, laranja e coco são categóricos porque não podemos classificá-los. Os dados ordinais também podem se referir a números que podem aumentar ou reduzir, mas apenas por valores definidos. Por exemplo, é garantido que o número de pessoas que embarca é um número inteiro, pois ninguém pode embarcar pela metade.

IDs referem-se um tipo especial de dados categóricos em que cada amostra tem sua ID única. Por exemplo, cada pessoa em nosso conjunto de dados, no Titanic tem um valor ID específico, mesmo que tenha o mesmo nome que outra pessoa. Os valores de identidade nos ajudam a navegar por um conjunto de dados, mas nossa análise de dados não envolve diretamente esses valores.

Tipos de dados

Um computador deve armazenar e processar todos os dados que usamos para aprendizado de máquina. Embora possamos escrever quase todos os dados em um pedaço de papel com um lápis, os computadores armazenam informações como séries de 0 e 1. Isso impõe restrições à maneira em que usamos as informações.

Tipo de dados refere-se ao tipo de dados que um computador armazena. Os tipos de dados geralmente têm estas categorias:

  • Inteiros: números de contagem, como 2.
  • Números de ponto flutuante: números com casas decimais, como 2,43.
  • Cadeias de caracteres: letras e palavras.
  • Boolianos: verdadeiro e falso.
  • Nenhum, inválido ou nulo: nenhum dado, mas a ausência de dados.

Os termos exatos e a implementação desses conceitos variam de idioma para idioma, mas todos eles operam de maneiras semelhantes em todas as linguagens de computador.

Algumas vezes, dois tipos de dados diferentes oferecem funcionalidade equivalente. Por exemplo, os computadores podem lidar com valores verdadeiro/falso como booleanos (verdadeiro ou falso), cadeias de caracteres (y ou n), inteiros (0 ou 1) ou números de ponto flutuante (0,0 ou 1,0).

Tipos de dados derivados

À medida que usamos a tecnologia, encontramos muitos tipos de dados básicos e primitivos além da lista acima. Os computadores podem armazenar datas, imagens, modelos 3D e assim por diante. Nós nos referimos a eles como tipos de dados derivados. Começamos com um ou mais tipos de dados primitivos para construir um tipo de dados derivado.

Geralmente, no aprendizado de máquina, ajuda converter tipos derivados em representações mais simples. Por exemplo, podemos armazenar um valor de data definido como 1º de janeiro de 2017 como um número inteiro ou de ponto flutuante como 20170101. Números inteiros ou de ponto flutuante facilitam os cálculos por trás de nossos modelos.

Há muitas opções?

Saber o tipo de dados disponíveis poderá ajudar a escolher a opção correta.

O tipo de dados correto pode depender do pacote que você usa para executar seus modelos, embora geralmente os pacotes sejam permissivos. Em geral:

  • Para trabalhar com os dados contínuos, os números de ponto flutuante se tornam a melhor opção.
  • Os dados ordinais normalmente codificam com valores inteiros.
  • Os dados categóricos envolvendo apenas duas categorias normalmente podem ser codificados como dados boolianos ou inteiros. Trabalhar com três ou mais categorias poderá ser um pouco mais complicado. Não se preocupe, a próxima lição abordará este tópico!

No próximo exercício, praticaremos a visualização de dados para entender melhor os dados em si. Ao fazer isso, observe cuidadosamente os tipos de dados envolvidos e tente identificar os tipos de dados contínuos, ordinais ou categóricos.