Identificar formatos de dados
Os dados são uma coleção de fatos, como números, descrições e observações, usados para registrar informações. As estruturas de dados nas quais esses dados são organizados geralmente representam entidades que são importantes para uma organização (como clientes, produtos, ordens de venda e assim por diante). Cada entidade normalmente tem um ou mais atributos ou características (por exemplo, um cliente pode ter um nome, um endereço, um número de telefone e assim por diante).
Você pode classificar os dados como estruturados, semiestruturados ou não estruturados.
Dados estruturados
Dados estruturados são dados que aderem a um esquema fixo, portanto, todos os dados têm os mesmos campos ou propriedades. Mais comumente, o esquema para entidades de dados estruturados é tabular - em outras palavras, os dados são representados em uma ou mais tabelas que consistem em linhas para representar cada instância de uma entidade de dados e colunas para representar atributos da entidade. Por exemplo, a imagem a seguir mostra representações de dados tabulares para entidades Cliente e Produto .
Os dados estruturados geralmente são armazenados em um banco de dados no qual várias tabelas podem fazer referência umas às outras usando valores-chave em um modelo relacional , que exploraremos mais detalhadamente mais adiante.
Dados semiestruturados
Dados semiestruturados são informações que têm alguma estrutura, mas que permitem alguma variação entre instâncias de entidade. Por exemplo, embora a maioria dos clientes possa ter um endereço de e-mail, alguns podem ter vários endereços de e-mail e outros podem não ter nenhum.
Um formato comum para dados semiestruturados é JavaScript Object Notation (JSON). O exemplo abaixo mostra um par de documentos JSON que representam informações do cliente. Cada documento do cliente inclui endereço e informações de contato, mas os campos específicos variam entre os clientes.
// Customer 1
{
"firstName": "Joe",
"lastName": "Jones",
"address":
{
"streetAddress": "1 Main St.",
"city": "New York",
"state": "NY",
"postalCode": "10099"
},
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "joe@litware.com"
}
]
}
// Customer 2
{
"firstName": "Samir",
"lastName": "Nadoy",
"address":
{
"streetAddress": "123 Elm Pl.",
"unit": "500",
"city": "Seattle",
"state": "WA",
"postalCode": "98999"
},
"contact":
[
{
"type": "email",
"address": "samir@northwind.com"
}
]
}
Nota
JSON é apenas uma das muitas maneiras pelas quais os dados semiestruturados podem ser representados. O objetivo aqui não é fornecer um exame detalhado da sintaxe JSON, mas sim ilustrar a natureza flexível das representações de dados semiestruturadas.
Dados não estruturados
Nem todos os dados são estruturados ou até semiestruturados. Por exemplo, documentos, imagens, dados de áudio e vídeo e arquivos binários podem não ter uma estrutura específica. Este tipo de dados é referido como dados não estruturados .
Arquivos de dados
As organizações normalmente armazenam dados em formato estruturado, semiestruturado ou não estruturado para registrar detalhes de entidades (por exemplo, clientes e produtos), eventos específicos (como transações de vendas) ou outras informações em documentos, imagens e outros formatos. Os dados armazenados podem ser recuperados para análise e relatórios posteriores.
Existem duas grandes categorias de armazenamento de dados de uso comum:
- Armazenamentos de arquivos
- Bases de Dados
Exploraremos esses dois tipos de armazenamento de dados nos tópicos subsequentes.