Identyfikowanie formatów danych
Dane to zbiór faktów, takich jak liczby, opisy i obserwacje używane do rejestrowania informacji. Struktury danych, w których te dane są zorganizowane, często reprezentują jednostki ważne dla organizacji (takie jak klienci, produkty, zamówienia sprzedaży itd.). Każda jednostka zazwyczaj ma co najmniej jeden atrybut lub cechy (na przykład klient może mieć nazwę, adres, numer telefonu itd.).
Dane można klasyfikować jako ustrukturyzowane, częściowo ustrukturyzowane lub bez struktury.
Dane strukturalne
Dane ustrukturyzowane to dane zgodne ze stałym schematem, więc wszystkie dane mają te same pola lub właściwości. Najczęściej schemat jednostek danych strukturalnych jest tabelaryczny — innymi słowy, dane są reprezentowane w co najmniej jednej tabeli składającej się z wierszy reprezentujących każde wystąpienie jednostki danych i kolumn reprezentujących atrybuty jednostki. Na przykład na poniższej ilustracji przedstawiono reprezentacje danych tabelarycznych dla jednostek Customer (Klient) i Product (Produkt).
Dane ustrukturyzowane są często przechowywane w bazie danych, w której wiele tabel może się odwoływać przy użyciu wartości kluczy w modelu relacyjnym . W dalszej części zapoznamy się z nimi.
Dane częściowo ustrukturyzowane
Dane częściowo ustrukturyzowane to informacje, które mają pewną strukturę, ale umożliwiają pewne różnice między wystąpieniami jednostek. Na przykład, podczas gdy większość klientów może mieć adres e-mail, niektóre mogą mieć wiele adresów e-mail, a niektóre mogą w ogóle ich nie mieć.
Jednym z typowych formatów danych częściowo ustrukturyzowanych jest JavaScript Object Notation (JSON). W poniższym przykładzie przedstawiono parę dokumentów JSON reprezentujących informacje o kliencie. Każdy dokument klienta zawiera informacje kontaktowe i adres, ale konkretne pola różnią się między klientami.
// Customer 1
{
"firstName": "Joe",
"lastName": "Jones",
"address":
{
"streetAddress": "1 Main St.",
"city": "New York",
"state": "NY",
"postalCode": "10099"
},
"contact":
[
{
"type": "home",
"number": "555 123-1234"
},
{
"type": "email",
"address": "joe@litware.com"
}
]
}
// Customer 2
{
"firstName": "Samir",
"lastName": "Nadoy",
"address":
{
"streetAddress": "123 Elm Pl.",
"unit": "500",
"city": "Seattle",
"state": "WA",
"postalCode": "98999"
},
"contact":
[
{
"type": "email",
"address": "samir@northwind.com"
}
]
}
Uwaga
Kod JSON to tylko jeden z wielu sposobów, na które mogą być reprezentowane częściowo ustrukturyzowane dane. W tym miejscu nie należy przedstawić szczegółowego zbadania składni JSON, ale raczej zilustrować elastyczny charakter częściowo ustrukturyzowanych reprezentacji danych.
Dane bez struktury
Nie wszystkie dane są strukturalne, a nawet częściowo strukturalne. Na przykład dokumenty, obrazy, dane audio i wideo oraz pliki binarne mogą nie mieć określonej struktury. Tego rodzaju dane są określane jako dane bez struktury .
Magazyny danych
Organizacje zwykle przechowują dane w formacie ustrukturyzowanym, częściowo ustrukturyzowanym lub bez struktury w celu rejestrowania szczegółów jednostek (na przykład klientów i produktów), określonych zdarzeń (takich jak transakcje sprzedaży) lub innych informacji w dokumentach, obrazach i innych formatach. Przechowywane dane można następnie pobrać na potrzeby analizy i raportowania później.
Istnieją dwie szerokie kategorie magazynów danych w typowym użyciu:
- Magazyny plików
- Bazy danych
Oba te typy magazynów danych omówimy w kolejnych tematach.