데이터 형식 식별하기

완료됨

데이터는 정보를 기록하는 데 사용되는 팩트(숫자, 설명, 관측값 등)의 컬렉션입니다. 이 데이터가 구성되는 데이터 구조는 조직에서 중요하게 사용되는 엔터티(고객, 제품, 판매 주문 등)를 나타내는 경우가 많습니다. 각 엔터티는 일반적으로 하나 이상의 특성 또는 특징을 갖습니다. 예를 들어, 하나의 고객은 이름, 주소, 전화번호 등을 가질 수 있습니다.

데이터는 정형 데이터, 반정형 데이터, 비정형 데이터로 구분할 수 있습니다.

정형 데이터

정형 데이터는 고정된 스키마를 준수하여 모든 데이터가 동일한 필드 또는 속성을 갖는 데이터입니다. 정형 데이터의 스키마는 대부분의 경우 표 형식입니다. 즉, 데이터는 데이터 엔터티의 각 인스턴스를 나타내는 행과 해당 엔터티의 특성을 나타내는 열로 이루어진 하나 이상의 테이블로 표현됩니다. 예를 들어, 다음 이미지는 Customer 엔터티와 Product 엔터티에 대한 표 형식 데이터를 보여 줍니다.

구조화된 데이터가 표로 표현되는 방식을 보여 주는 다이어그램.

구조화된 데이터는 여러 개의 테이블이 관계형 모델을 가지며 서로를 키 값으로 참조할 수 있는 데이터베이스에 저장되는 경우가 많습니다. 관계형 모델에 대해서는 뒤에서 자세히 알아봅니다.

반정형 데이터

반정형 데이터는 얼마간의 구조가 있긴 하나 각 엔터티 인스턴스 간에 약간의 차이가 허용되는 정보입니다. 예를 들어, 대부분의 고객은 하나의 메일 주소를 갖지만 어떤 고객은 여러 개의 메일 주소를 가질 수 있고 또 어떤 고객은 메일 주소가 하나도 없을 수 있습니다.

반정형 데이터의 가장 일반적인 형식은 JSON(JavaScript Object Notation)입니다. 아래의 예는 고객 정보를 나타내는 JSON 문서 쌍을 보여 줍니다. 각 고객 문서는 주소와 연락처 정보를 포함하지만 특정 필드는 고객 간에 상이합니다.

// Customer 1
{
  "firstName": "Joe",
  "lastName": "Jones",
  "address":
  {
    "streetAddress": "1 Main St.",
    "city": "New York",
    "state": "NY",
    "postalCode": "10099"
  },
  "contact":
  [
    {
      "type": "home",
      "number": "555 123-1234"
    },
    {
      "type": "email",
      "address": "joe@litware.com"
    }
  ]
}

// Customer 2
{
  "firstName": "Samir",
  "lastName": "Nadoy",
  "address":
  {
    "streetAddress": "123 Elm Pl.",
    "unit": "500",
    "city": "Seattle",
    "state": "WA",
    "postalCode": "98999"
  },
  "contact":
  [
    {
      "type": "email",
      "address": "samir@northwind.com"
    }
  ]
}

참고

JSON은 반정형 데이터를 나타낼 수 있는 여러 가지 방법 중 하나에 불과합니다. 위의 JSON 문서는 JSON 구문을 자세히 살펴보기 위해 제공된 것이 아니라 반정형 데이터 표현의 유연한 성격을 보여 주기 위해 제시되었습니다.

비정형 데이터

모든 데이터가 정형이거나 반정형인 것은 아닙니다. 예를 들어, 문서, 이미지, 오디오 및 비디오 데이터, 이진 파일은 특정한 구조를 갖지 않을 수 있습니다. 이러한 종류의 데이터를 비정형 데이터라고 합니다.

문서의 구조화되지 않은 데이터를 보여 주는 다이어그램.

데이터 저장소

조직에서는 일반적으로 데이터를 정형 형식, 반정형 형식 또는 비정형 형식으로 저장하여 엔터티의 세부 정보(예: 고객 및 제품), 특정 이벤트(예: 판매 트랜잭션) 또는 그 밖의 정보를 문서, 이미지 및 기타 형식으로 기록합니다. 저장된 데이터는 나중에 가져와서 분석 및 보고에 사용될 수 있습니다.

널리 사용되는 데이터 저장소는 크게 다음 두 범주와 같이 구분됩니다.

  • 파일 저장소
  • 데이터베이스

이어지는 토픽에서는 이 두 가지 유형의 데이터 저장소에 대해 알아봅니다.