Identifikace formátů dat

Dokončeno

Data jsou kolekce faktů, jako jsou čísla, popisy a pozorování sloužící k zaznamenání informací. Datové struktury, ve kterých jsou tato data uspořádaná, často představují entity , které jsou pro organizaci důležité (například zákazníky, produkty, prodejní objednávky atd.). Každá entita má obvykle jeden nebo více atributů nebo charakteristik (například zákazník může mít jméno, adresu, telefonní číslo atd.).

Data můžete klasifikovat jako strukturovaná, částečně strukturovaná nebo nestrukturovaná.

Strukturovaná data

Strukturovaná data jsou data, která dodržují pevné schéma, takže všechna data mají stejná pole nebo vlastnosti. Schéma strukturovaných datových entit je nejčastěji tabulkové – jinými slovy, data jsou reprezentována v jedné nebo více tabulkách, které se skládají z řádků, které představují každou instanci datové entity, a sloupce představující atributy entity. Například na následujícím obrázku je znázornění tabulkových dat pro entity Zákazník a Produkt .

Diagram znázorňující znázornění strukturovaných dat v tabulkách

Strukturovaná data jsou často uložená v databázi, ve které na sebe může více tabulek odkazovat pomocí klíčových hodnot v relačním modelu, které prozkoumáme podrobněji později.

Částečně strukturovaná data

Částečně strukturovaná data jsou informace, které mají určitou strukturu, ale umožňují určité variace mezi instancemi entit. Zatímco většina zákazníků může mít například e-mailovou adresu, některé můžou mít více e-mailových adres a některé nemusí mít vůbec žádnou.

Jedním z běžných formátů pro částečně strukturovaná data je JavaScript Object Notation (JSON). Následující příklad ukazuje dvojici dokumentů JSON, které představují informace o zákazníci. Každý dokument zákazníka obsahuje adresu a kontaktní údaje, ale konkrétní pole se mezi zákazníky liší.

// Customer 1
{
  "firstName": "Joe",
  "lastName": "Jones",
  "address":
  {
    "streetAddress": "1 Main St.",
    "city": "New York",
    "state": "NY",
    "postalCode": "10099"
  },
  "contact":
  [
    {
      "type": "home",
      "number": "555 123-1234"
    },
    {
      "type": "email",
      "address": "joe@litware.com"
    }
  ]
}

// Customer 2
{
  "firstName": "Samir",
  "lastName": "Nadoy",
  "address":
  {
    "streetAddress": "123 Elm Pl.",
    "unit": "500",
    "city": "Seattle",
    "state": "WA",
    "postalCode": "98999"
  },
  "contact":
  [
    {
      "type": "email",
      "address": "samir@northwind.com"
    }
  ]
}

Poznámka:

JSON je jen jedním z mnoha způsobů, jak se dají reprezentovat částečně strukturovaná data. Tady není potřeba podrobně zkoumat syntaxi JSON, ale spíše ilustrovat flexibilní povahu částečně strukturovaných reprezentací dat.

Nestrukturovaná data

Některá data nejsou strukturovaná ani částečně strukturovaná. Například dokumenty, obrázky, data zvuku a videa a binární soubory nemusí mít specifickou strukturu. Tento druh dat se označuje jako nestrukturovaná data.

Diagram znázorňující nestrukturovaná data v dokumentech

Úložiště dat

Organizace obvykle ukládají data ve strukturovaném, částečně strukturovaném nebo nestrukturovaném formátu pro zaznamenávání podrobností entit (například zákazníků a produktů), konkrétních událostí (například prodejních transakcí) nebo jiných informací v dokumentech, obrázcích a jiných formátech. Uložená data pak můžete načíst pro analýzu a vytváření sestav později.

Existují dvě široké kategorie úložiště dat, které se běžně používají:

  • Úložiště souborů
  • Databáze

Oba tyto typy úložiště dat prozkoumáme v následujících tématech.