데이터 관리 랜딩 존
데이터 관리 랜딩 존은 클라우드 규모 분석의 중심인 관리 함수입니다. 분석 플랫폼의 거버넌스를 담당합니다.
데이터 관리 랜딩 존은 동일한 표준 Azure 랜딩 존의 서비스를 포함하는 별도의 구독입니다. 크롤러를 사용하여 데이터에 대한 거버넌스를 가능하게 하며, 데이터 레이크와 폴리글랏 스토리지에 연결된 데이터 랜딩 존에서 데이터를 관리할 수 있습니다. 가상 네트워크 피어링이 데이터 관리 랜딩 존을 데이터 랜딩 존 및 연결 구독에 연결합니다.
이 아키텍처는 시작점이며 데이터 관리 랜딩 존 구현을 계획할 때 특정 비즈니스 및 기술 요구 사항에 맞게 수정할 수 있습니다.
참고 항목
Polyglot 지속성은 다양한 데이터 형식과 스토리지 요구 사항을 지원하기 위해 다양한 데이터 스토리지/데이터 저장소 기술 중에서 선택하는 것을 설명하는 스토리지 용어입니다. 기본적으로 다중저장소 지속성은 애플리케이션이 둘 이상의 핵심 데이터베이스 또는 스토리지 기술을 사용할 수 있다는 개념입니다.
Important
데이터 관리 랜딩 존은 적절한 거버넌스를 갖춘 관리 그룹 아래에 별도의 구독으로 배포해야 합니다. 그러면 조직 전체에서 거버넌스를 제어할 수 있습니다. Azure 랜딩 존 가속기는 Azure 랜딩 존에 접근하는 방법을 보여 줍니다.
데이터 거버넌스
Cloud Scale Analytics는 Microsoft Purview 사용을 제안합니다. 또는 특정 데이터 거버넌스 기능을 관리하기 위해 Microsoft 파트너 솔루션을 배포할 수 있습니다. 아키텍처에서 고려해야 할 주요 기능에는 글로벌 데이터 카탈로그, 마스터 데이터 관리, 데이터 공유 및 계약, API 카탈로그, 데이터 품질 관리 및 데이터 모델링 리포지토리가 포함됩니다.
구독에 배포해야 하는 Microsoft 파트너 데이터 거버넌스 제품은 데이터 관리 랜딩 존 내의 데이터 거버넌스 리소스 그룹에 배포해야 합니다.
데이터 카탈로그
데이터 카탈로그는 중앙 집중식 위치에서 데이터 정보를 등록하고 유지 관리하며 조직에서 사용할 수 있도록 합니다. 이를 통해 기업은 여러 프로젝트 팀의 중복 데이터 수집으로 인해 발생하는 중복 데이터 제품을 방지할 수 있습니다. 데이터 카탈로그 서비스를 만들어 데이터 랜딩 존에 저장된 데이터 제품의 메타데이터를 정의하는 것이 좋습니다.
클라우드 규모 분석은 엔터프라이즈 데이터 원본을 등록하고, 분류하고, 데이터 품질을 보장하고, 안전한 셀프 서비스 액세스를 제공하기 위해 Microsoft Purview에 의존합니다.
Microsoft Purview는 테넌트 기반 서비스이며 데이터 랜딩 존의 지역에 배포된 Managed Virtual Network를 만들어 각 데이터 랜딩 존과 통신할 수 있습니다. 사용 가능한 모든 Microsoft Purview 지역에서 Microsoft Purview 관리형 가상 네트워크 내에 Azure 관리형 가상 네트워크 통합 런타임(IR)을 배포할 수 있습니다. 여기에서 관리형 가상 네트워크 IR은 프라이빗 엔드포인트를 사용하여 지원되는 데이터 소스에 안전하게 연결하고 스캔할 수 있습니다. 자세한 내용은 관리형 가상 네트워크를 Microsoft Purview 계정으로 사용하기를 참조하세요. 관리형 가상 네트워크 내에서 관리형 가상 네트워크 IR을 만들면 데이터 통합 프로세스를 격리하고 안전하게 보호할 수 있습니다.
Azure Databricks를 사용하는 경우 Microsoft Purview 외에도 Azure Databricks Unity 카탈로그 사용하는 것이 좋습니다. Azure Databricks Unity 카탈로그는 Databricks 작업 영역에서 중앙 집중식 액세스 제어, 감사, 계보 및 데이터 검색 기능을 제공합니다. Unity 카탈로그를 설정하는 모범 사례는 Unity 카탈로그 모범 사례참조하세요.
참고 항목
이 문서는 주로 거버넌스를 위해 Microsoft Purview를 사용하는 데 초점을 맞추고 있지만, 기업에서는 Alation, Okera 또는 Collibra와 같은 다른 제품에 투자했을 수도 있습니다. 이러한 솔루션은 구독 기반이며 데이터 관리 랜딩 존에 배포하는 것이 좋습니다. 일부 사용자 지정 통합이 필요할 수 있습니다.
마스터 데이터 관리
마스터 데이터 관리 컨트롤은 데이터 관리 랜딩 존에 있습니다. 데이터 메시의 마스터 데이터 관리에는 데이터 메시에 대해 호출해야 하는 특정 고려 사항이 포함되어 있습니다.
많은 마스터 데이터 관리 솔루션이 Microsoft Entra ID와 완벽하게 통합됩니다. 이러한 통합을 통해 데이터를 보호하고 다양한 사용자 그룹에 대해 서로 다른 보기를 제공할 수 있습니다.
자세한 내용은 마스터 데이터 관리 시스템을 참조하세요.
데이터 공유 및 계약
클라우드 규모 분석은 데이터 공유에 대한 액세스를 제어하기 위해 Microsoft Entra 권한 관리 또는 Microsoft Purview 정책을 사용합니다. 그럼에도 불구하고 공유 및 계약 리포지토리가 여전히 필요할 수 있습니다. 이 리포지토리는 조직 기능이며 데이터 관리 랜딩 존에 있어야 합니다.
계약은 데이터 유효성 검사, 모델, 보안 정책에 대한 정보를 제공해야 합니다.
자세한 내용은 데이터 계약참조하세요.
API 카탈로그
데이터 애플리케이션 팀은 데이터 애플리케이션에 대한 다양한 API를 만듭니다. 이러한 API는 조직 전체에서 검색하기 어려울 수 있습니다. 데이터 관리 랜딩 존에 API 카탈로그를 배치하면 이 문제를 해결할 수 있습니다.
API 카탈로그는 설명서를 표준화하는 데 도움이 되며 API에 대한 내부 협업을 위한 장소를 제공합니다. 또한 조직 전체에서 소비, 게시, 거버넌스 제어를 구동할 수 있습니다.
데이터 품질 관리
현재 솔루션을 계속 진행합니다.
데이터 원본에 최대한 가깝게 데이터 품질을 관리하여 품질 문제가 분석 및 AI 시스템에 분산되는 것을 방지합니다. 데이터 프로세스에 품질 메트릭 및 유효성 검사를 통합하면 품질 관리를 데이터에 가장 익숙한 팀과 정렬하여 데이터 자산에 대한 심층적인 이해와 더 나은 처리를 보장합니다.
데이터 계보는 데이터 품질 신뢰도를 제공하므로 모든 데이터 제품에 대해 제공해야 합니다.
데이터 품질 관리에 대한 자세한 내용은 데이터 품질을 참조하세요.
데이터 모델링 리포지토리
데이터 소비자에게 개념 다이어그램을 찾을 수 있는 단일 위치를 제공하여 데이터 관리 랜딩 존 내의 중앙 위치에 엔터티 관계 모델을 캡처하고 저장해야 합니다.
많은 고객이 데이터 수집 전에 ER Studio 및 OrbusInfinity를 사용하여 데이터 제품을 모델링합니다.
서비스 계층
조직에서 클라우드 규모 분석 기능을 보강하기 위해 많은 자동화 서비스를 만들기로 결정할 수 있습니다. 이러한 자동화 서비스는 분석 상태에 대한 적합성 및 온보딩 솔루션을 구동합니다.
이러한 자동화 서비스를 빌드하려는 경우 데이터 마켓플레이스와 운영 콘솔의 역할을 하는 사용자 인터페이스가 있어야 합니다. 이 인터페이스는 메타데이터 표준같은 기본 메타데이터 저장소를 사용해야 합니다.
데이터 마켓플레이스 또는 운영 콘솔은 온보딩, 메타데이터 등록, 보안 프로비저닝, 데이터 수명 주기, 가시성을 용이하게 하기 위해 마이크로 서비스의 중간 계층을 호출합니다.
서비스 계층 리소스 그룹을 프로비전하여 메타데이터 저장소를 호스트할 수 있습니다.
Important
이러한 자동화 서비스는 제품이 없으며 로드맵 항목을 보여 주지 않습니다. 자동화할 항목을 고려하는 데 도움이 되는 항목이 나열됩니다.
서비스 | 서비스 범위 |
---|---|
데이터 랜딩 존 프로비전 | 이 서비스는 새 데이터 랜딩 존을 만듭니다. 사용량이 많을 가능성은 낮지만 엔드 투 엔드 온보딩 솔루션 완전성을 위해 포함됩니다. 자세한 내용은 클라우드 규모 분석 프로비전을 참조하세요. |
데이터 제품 온보딩 | 이 서비스는 온보딩된 테넌트와 관련된 리소스 그룹을 만들고 수정합니다. 또한 SKU를 업그레이드 및 다운그레이드하고 온보딩된 테넌트 또는 서비스에 대한 리소스 그룹을 활성화 및 비활성화하는 기능도 포함되어 있습니다. 새 데이터 랜딩 존 DevOps를 만듭니다. 자세한 내용은 클라우드 규모 분석 프로비전을 참조하세요. |
데이터 중립적 수집 | 이 마이크로 서비스는 각 데이터 랜딩 존의 Azure Data Factory SQL Database 메타스토어와 통신하여 데이터 랜딩 존으로 수집할 새 데이터 원본을 만듭니다. 자세한 내용은 자동화된 수집 프레임워크가 Azure에서 클라우드 규모 분석을 지원하는 방법을 참조하세요. |
메타데이터 | 이 서비스는 플랫폼에 대한 메타데이터를 노출하고 만듭니다. 자세한 내용은 메타데이터 표준을 참조하세요. |
액세스 프로비전 | 이 서비스는 SPN/UPN을 사용하여 액세스 패키지, 액세스 정책 및 자산 액세스 승인 프로세스(수동 또는 자동)를 만듭니다. 또한 API를 노출하여 사용자가 지난 90일 동안 제출한 구독 요청(자산) 목록을 제공할 수도 있습니다. 자세한 내용은 데이터 액세스 관리를 참조하세요. |
데이터 수명 주기 | 이 서비스는 메타데이터를 기반으로 데이터 수명 주기를 유지 관리합니다. 이 유지 관리에는 데이터를 콜드 스토리지로 이동하고 더 이상 보존할 필요가 없는 레코드를 삭제하는 것이 포함될 수 있습니다. 자세한 내용은 데이터 수명 주기 관리를 참조하세요. |
데이터 도메인 온보딩 | 데이터 메시에만 적용됩니다. 이 서비스는 새 도메인과 관련된 메타데이터를 캡처하고 필요에 따라 새 도메인을 온보딩합니다. 또한 마이크로 서비스에 빌드할 수 있는 도메인 또는 서비스 라인을 만들고, 업데이트하고, 활성화하고, 비활성화할 수도 있습니다. 자세한 내용은 클라우드 규모 분석 프로비전을 참조하세요. |
Azure Container Registry
데이터 관리 랜딩 존은 Azure Container Registry를 호스트합니다. Azure Container Registry를 통해 데이터 플랫폼 작업 시 데이터 애플리케이션 팀에서 사용하는 데이터 과학 프로젝트에 사용할 표준 컨테이너를 배포할 수 있습니다.