다음을 통해 공유


메타데이터 표준

메타데이터 관리는 데이터 아키텍처에서 중요한 역할을 합니다. 메타데이터는 다른 데이터에 대한 정보입니다. 데이터를 찾고, 보호하고, 제어하는 데 도움이 되는 참조를 제공하는 데이터를 설명합니다. 또한 메타데이터는 데이터를 함께 바인딩합니다. 데이터의 무결성 및 품질 유효성을 검사하고, 데이터를 새 위치로 라우팅 또는 복제하고, 데이터를 변환하고, 데이터 의미를 이해하는 데 사용할 수 있습니다. 메타데이터는 셀프 서비스 포털을 통해 데이터를 민주화하는 데에도 필수적입니다.

업계에서는 더 많은 메타데이터를 사용하는 포털을 사용하여 데이터 분석가 및 과학자에게 데이터 인사이트를 더 가깝게 만드는 추세가 증가하고 있습니다. 이 추세를 데이터 가시성이라고 합니다. 데이터 가시성은 메타데이터 레이크, 지식 그래프 또는 메타데이터 그래프와 같은 개념을 사용하여 메타데이터가 중앙 집중화된 플랫폼을 설명합니다. 조직 내에서 분산 데이터 메쉬를 사용할 때 데이터가 사용되고 수집되는 방식에 대한 통합된 시각을 구축하는 좋은 방법입니다.

좋은 메타데이터 관리 전략은 유기적으로 성장합니다. 먼저 가장 중요한 영역을 식별하여 작고 간단하게 시작합니다. 좋은 메타데이터 관리 전략은 서비스 및 명확한 프로세스에서도 지원됩니다. 시작하려면 다양한 메타데이터 범주를 인식하는 것이 좋습니다.

  • 비즈니스 메타데이터는 거버넌스에 사용되는 모든 측면을 설명하며, 데이터를 이해하는 &을 찾습니다. 잘 알려진 몇 가지 예에는 비즈니스 용어/정의 및 데이터 소유권, 사용량, 출처에 대한 정보가 포함됩니다.
  • 기술 메타데이터는 디자인 타임 시 데이터의 구조적 측면을 설명합니다. 잘 알려진 몇 가지 예에는 스키마 정보, 데이터 형식과 프로토콜 정보, 암호화/암호 해독 키가 포함됩니다.
  • 운영 메타데이터는 런타임 시 데이터의 처리 측면을 설명합니다. 잘 알려진 몇 가지 예에는 프로세스 정보, 실행 시간, 프로세스 오류 정보 및 작업 ID가 포함됩니다.
  • 소셜 메타데이터는 소비자의 데이터에 대한 사용자 관점을 설명합니다. 잘 알려진 몇 가지 예에는 사용/사용자 추적 정보, 검색 결과 데이터, 필터 및 클릭, 시청 시간, 프로필 조회 수, 댓글이 포함됩니다.

분산형 데이터 아키텍처에서 메타데이터 관리는 중앙 관리형 메타데이터와 페더레이션 관리형 메타데이터 간의 균형을 찾는 데 필요한 조직의 과제입니다. 메타데이터 관리를 계획할 때 Azure에서 클라우드 규모 분석을 위한 팀과 기능을 이해하는 것이 중요합니다. 공동 작업 데이터 관리 사례를 사용하면 팀 간의 통신, 통합 및 데이터 흐름 자동화를 개선할 수 있습니다. 중앙 거버넌스와 도메인 소유권 간의 적절한 균형을 맞추면 일부 메타데이터 관리 복잡성을 해결할 수 있습니다.

중앙에서 관리하거나 데이터 도메인에 페더레이션하고 구현을 시작할 메타데이터를 결정할 때 다음을 스스로에게 요청합니다.

  • 중요한 비즈니스 메타데이터는 무엇인가?
  • 상호 운용성에 필요한 기술 메타데이터는 무엇인가?
  • 데이터를 캡처하는 프로세스와 스트림은 무엇인가?
  • 모델 또는 스키마를 만들고 유지 관리하는 위치는 어디인가?
  • 데이터 거버넌스 부서가 작업을 올바르게 수행할 수 있도록 팀이 중앙에서 제공해야 하는 정보는 무엇인가요?

이러한 질문에 대한 답변을 사용하여 각 메타데이터 스트림에 대한 콘텐츠 수명 주기를 매핑하고 모든 종속성을 결정합니다. 그러면 비즈니스 도메인, 프로세스, 기술 및 데이터를 연결할 수 있는 메타데이터 모델이 생깁니다.

필요한 메타데이터를 알고 나면 저장하고 처리할 위치를 선택해야 합니다. 이를 위해 Microsoft Purview를 사용할 수 있습니다.

Microsoft Purview를 사용하여 데이터 자산 전반을 관리하세요.

Microsoft Purview는 온-프레미스, 멀티클라우드 및 서비스형 소프트웨어(SaaS) 데이터를 관리하고 제어하는 데 도움이 되는 통합 데이터 거버넌스 솔루션입니다. 대규모로 메타데이터를 관리합니다. 이는 데이터 검색, 데이터 스캔, 데이터 품질 및 액세스 관리를 지능적으로 수행하는 완전히 자동화된 서비스이기 때문입니다. 또한 데이터 메시 아키텍처에 대한 많은 인사이트를 제공하는 전체적인 맵을 제공합니다.

Microsoft Purview는 조직이 어디에 있든 데이터를 관리, 보호 및 관리하는 데 도움이 되는 포괄적인 솔루션 집합입니다. Microsoft Purview 솔루션은 통합 적용 범위를 제공하고 조직 전체의 데이터 조각화, 데이터 보호 및 거버넌스를 방해하는 가시성 부족, 기존 IT 관리 역할의 모호함 문제를 해결하는 데 도움이 됩니다.

Microsoft Purview는 데이터 거버넌스 및 규정 준수 솔루션과 서비스를 통합 플랫폼으로 결합하여 조직에 도움을 줍니다.

  • 조직 전체의 데이터 자산에 대한 가시성 확보
  • 어디에 있든지 수명 주기 동안 중요한 데이터 보호 및 관리
  • 새롭고 포괄적인 방법으로 원활하게 데이터 관리
  • 중요한 데이터 위험 및 규정 요구 사항 관리

Microsoft Purview를 구현할 때 너무 많은 변경 및 복잡성을 신속하게 도입하지 마세요. 기술 메타데이터는 Microsoft Purview의 기초를 형성합니다. 메타데이터를 이해하기 전에 수집하고 구성해야 합니다.

메타데이터가 있으면 기본 사항으로 시작합니다.

  • 비즈니스 약관
  • 신뢰할 수 있는 데이터 소스 목록
  • 데이터베이스 목록
  • 거버넌스 도메인
  • 스키마 정보
  • 데이터 소유권
  • 데이터 관리
  • 보안
  • 데이터 품질

그런 다음, 더 많은 도메인 소유자와 데이터 관리자를 천천히 참여시키고 더 많은 분류 및 민감도 레이블을 추가하여 확장합니다. 이러한 추가 기능으로 검색 환경이 개선되고 데이터 액세스 관리가 향상됩니다.

Microsoft Purview는 도메인 지향 아키텍처 내에서 데이터 제품 및 비즈니스 개념의 통합 거버넌스, 소유권 및 검색을 위한 경계를 설정하는 거버넌스 도메인이라는 기능을 제공합니다. 자세한 내용은 거버넌스 도메인 Microsoft Purview을 참조하세요.

Azure Cosmos DB를 사용하여 지식 그래프 만들기

데이터 인사이트 솔루션은 데이터가 사용되는 방식과 원본 데이터 및 데이터 제품과 같은 엔터티 간의 관계, 한 도메인의 데이터 제품과 다른 도메인의 종속 제품 간의 관계를 설명해야 합니다. 그래프 데이터베이스 또는 사용자 지정 사용자 인터페이스를 사용하여 이러한 관계를 모델링할 수 있습니다.

사용자 지정 사용자 환경을 사용하여 조직의 데이터에 대한 통합 보기를 빌드하려면 Azure Cosmos DB를 사용하는 것이 좋습니다. Azure Cosmos DB는 NoSQL 엔드포인트가 있는 전역적으로 분산된 다중 모델 데이터베이스 서비스입니다. Apache Gremlin용 Azure Cosmos DB를 통해 그래프 데이터베이스 서비스를 제공하며, 수십억 개의 꼭짓점과 에지가 있는 대규모 그래프를 저장할 수 있습니다.

Azure Cosmos DB 아키텍처의 최종 결과는 엔드 투 엔드 컨텍스트를 사용하여 조직의 모든 데이터에 대한 통합 보기를 제공하는 조직 전체 그래프입니다. 메타데이터 레이크는 정보를 저장하는 것만이 아닙니다. 또한 메타데이터를 다른 서비스 및 도구에 연결하여 메타데이터를 그래프로 적극적으로 구성합니다. 이 구성된 그래프를 사용하면 다음을 비롯한 여러 주제 영역의 상호 상관 관계를 지정할 수 있습니다.

  • 도메인
  • 데이터 품질
  • 데이터 사용량
  • 비즈니스 기능
  • 애플리케이션 기능
  • 기술 아키텍처 정보
  • 작업 이벤트
  • 조직 메타데이터
  • 애플리케이션 소유권 메타데이터
  • 위치 정보
  • 애플리케이션 수명 주기 관리 정보

다음 단계