Identifikace formátů dat
Data jsou kolekce faktů, jako jsou čísla, popisy a pozorování sloužící k zaznamenání informací. Datové struktury, ve kterých jsou tato data uspořádaná, často představují entity , které jsou pro organizaci důležité (například zákazníky, produkty, prodejní objednávky atd.). Každá entita má obvykle jeden nebo více atributů nebo charakteristik (například zákazník může mít jméno, adresu, telefonní číslo atd.).
Data můžete klasifikovat jako strukturovaná, částečně strukturovaná nebo nestrukturovaná.
Strukturovaná data
Strukturovaná data jsou data, která dodržují pevné schéma, takže všechna data mají stejná pole nebo vlastnosti. Schéma strukturovaných datových entit je nejčastěji tabulkové – jinými slovy, data jsou reprezentována v jedné nebo více tabulkách, které se skládají z řádků, které představují každou instanci datové entity, a sloupce představující atributy entity. Například na následujícím obrázku je znázornění tabulkových dat pro entity Zákazník a Produkt .
Strukturovaná data jsou často uložená v databázi, ve které na sebe může více tabulek odkazovat pomocí klíčových hodnot v relačním modelu, které prozkoumáme podrobněji později.
Částečně strukturovaná data
Částečně strukturovaná data jsou informace, které mají určitou strukturu, ale umožňují určité variace mezi instancemi entit. Zatímco většina zákazníků může mít například e-mailovou adresu, některé můžou mít více e-mailových adres a některé nemusí mít vůbec žádnou.
Jedním z běžných formátů pro částečně strukturovaná data je JavaScript Object Notation (JSON). Následující příklad ukazuje dvojici dokumentů JSON, které představují informace o zákazníci. Každý dokument zákazníka obsahuje adresu a kontaktní údaje, ale konkrétní pole se mezi zákazníky liší.
// Customer 1
{
"firstName": "Joe",
"lastName": "Jones",
"address":
{
"streetAddress": "1 Main St.",
"city": "New York",
"state": "NY",
"postalCode": "10099"
},
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "joe@litware.com"
}
]
}
// Customer 2
{
"firstName": "Samir",
"lastName": "Nadoy",
"address":
{
"streetAddress": "123 Elm Pl.",
"unit": "500",
"city": "Seattle",
"state": "WA",
"postalCode": "98999"
},
"contact":
[
{
"type": "email",
"address": "samir@northwind.com"
}
]
}
Poznámka:
JSON je jen jedním z mnoha způsobů, jak se dají reprezentovat částečně strukturovaná data. Tady není potřeba podrobně zkoumat syntaxi JSON, ale spíše ilustrovat flexibilní povahu částečně strukturovaných reprezentací dat.
Nestrukturovaná data
Některá data nejsou strukturovaná ani částečně strukturovaná. Například dokumenty, obrázky, data zvuku a videa a binární soubory nemusí mít specifickou strukturu. Tento druh dat se označuje jako nestrukturovaná data.
Úložiště dat
Organizace obvykle ukládají data ve strukturovaném, částečně strukturovaném nebo nestrukturovaném formátu pro zaznamenávání podrobností entit (například zákazníků a produktů), konkrétních událostí (například prodejních transakcí) nebo jiných informací v dokumentech, obrázcích a jiných formátech. Uložená data pak můžete načíst pro analýzu a vytváření sestav později.
Existují dvě široké kategorie úložiště dat, které se běžně používají:
- Úložiště souborů
- Databáze
Oba tyto typy úložiště dat prozkoumáme v následujících tématech.