Azure의 클라우드 규모 분석 데이터 제품
데이터 제품 특정 사용 사례에 필요할 수 있는 다국어 지속성 서비스에서 제품으로 제공되고 계산, 저장 및 제공되는 데이터입니다. 데이터 제품을 만들고 제공하는 프로세스에는 데이터 랜딩 존 핵심 서비스에 포함되지 않은 서비스 및 기술이 필요할 수 있습니다. 이 예는 규정 준수 및 세금 보고와 같은 틈새 요구 사항을 보고하는 것입니다.
디자인 고려 사항
데이터 랜딩 존은 동일한 데이터 랜딩 존 내에서 또는 여러 데이터 랜딩 존에서 데이터를 수집하여 만든 여러 데이터 제품을 제공할 수 있습니다. 다음 다이어그램에 나와 있습니다.
위의 예제는 다음을 보여줍니다.
- 인트라존 데이터 사용량:
- 데이터 제품 B는 자체 랜딩 존 내의 데이터 레이크에 존재하는 데이터 제품 A 및 기타 데이터 또는 데이터 제품의 데이터를 사용합니다.
- 데이터 제품 C와 D는 자체 데이터 랜딩 존 내에서만 데이터를 사용합니다.
- 영역 간 데이터 사용량:
- 또한 데이터 제품 B는 데이터 제품 C의 데이터와 랜딩 존 3의 데이터 레이크에 있는 데이터를 사용합니다.
중요하다
상호 영역 데이터 사용의 경우, 데이터 제품 B는 데이터 랜딩 존 3에서 읽어옴으로써 생성되기 때문에, 이 읽기 액세스는 데이터 랜딩 존 3의 데이터 랜딩 존 작업 팀과 및 통합 작업 팀 그리고의 승인이 필요합니다.
중요하다
데이터 제품 B는 데이터 제품 A 및 C의 데이터를 사용합니다. 이 일이 발생하기 전에 데이터 제품 B는 데이터 공유 계약을 통해 데이터 제품의 소비를 등록해야 합니다. 이 데이터 공유 계약은 데이터 제품 A에서 데이터 제품 B로, 데이터 제품 C에서 데이터 제품 B로 계보를 업데이트해야 합니다.
데이터 제품의 리소스 그룹에는 데이터 제품을 만들고 유지 관리하는 데 필요한 모든 서비스가 포함됩니다. 이 리소스 그룹을 데이터 애플리케이션호출할 수 있습니다. 데이터 애플리케이션의 일부가 될 수 있는 서비스의 예로는 Azure Functions, Azure App Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Machine Learning, Azure SQL Database, Azure Database for MySQL 및 Azure Cosmos DB가 있습니다.
데이터 제품에는 일부 데이터 변환이 적용된 READ 데이터 원본의 데이터가 있습니다. 예제는 새로 큐레이팅된 데이터 세트 또는 BI 보고서일 수 있습니다.
디자인 권장 사항
데이터 거버넌스를 사용하여 크기를 조정할 수 있는 디자인 원칙을 준수하여 데이터 랜딩 존 내에서 데이터 제품을 빌드합니다. 다음 섹션에서는 데이터 애플리케이션 에코시스템을 계획할 때 도움이 되는 디자인 권장 사항을 제공합니다.
여러 리소스 그룹을 배포하십시오.
각 데이터 애플리케이션은 리소스 그룹입니다. 데이터 애플리케이션은 컴퓨팅 서비스, 다국어 지속성 서비스 또는 둘 다이므로 특정 사용 사례에 따라 필요할 수 있습니다. 따라서 선택적 데이터 랜딩 존 구성 요소로 간주됩니다. 데이터 애플리케이션이 필요한 경우 다음 다이어그램과 같이 데이터 애플리케이션별로 여러 리소스 그룹을 만듭니다.
가드레일 설정
Azure Policy는 데이터 랜딩 존 내에서 서비스의 기본 구성을 구동합니다. 운영 분석을 데이터 제품 팀이 표준 서비스 카탈로그에서 요청할 수 있는 여러 리소스 그룹으로 간주합니다. Azure Policy를 사용하여 보안 경계 및 필요한 기능 집합을 구성할 수 있습니다.
중요하다
일관성을 유지하려면 각 데이터 애플리케이션에 대해 하나의 Azure Policy를 구성합니다.
여러 위치에서 데이터 사용
데이터 애플리케이션은 여러 데이터 자산의 데이터를 관리, 구성 및 이해하고 얻은 모든 인사이트를 제공합니다. 데이터 제품은 데이터 랜딩 존 내에 있는 하나 이상의 데이터 애플리케이션의 데이터 결과입니다. 필요한 경우 데이터 애플리케이션이 여러 원본 및 다양한 원본의 데이터에 액세스할 수 있도록 허용합니다.
필요에 따라 크기 조정
데이터 애플리케이션을 구성하는 서비스는 데이터 랜딩 존에 대한 증분 배포입니다. 필요에 따라 데이터 애플리케이션의 크기를 조정합니다.
데이터 탐색 활성화
데이터 검색을 허용하도록 Microsoft Purview 같은 데이터 카탈로그에 데이터 제품을 자동으로 등록합니다.
데이터 제품 식별
데이터 랜딩 존 계획을 시작하는 동안 데이터 제품 애플리케이션 아키텍처를 구동하는 데 도움이 되도록 필요한 만큼의 데이터 제품(및 이를 출력하고 유지 관리하는 데이터 애플리케이션)을 식별합니다. 구현된 플랫폼 거버넌스에 대한 적합성은 의사 결정에서 가장 큰 역할을 해야 합니다.
데이터 애플리케이션이 다른 사용자를 위한 데이터 생산자 및 소비자인 방법에 중점을 줍니다. 예를 들어 생성되고 사용되는 데이터 제품(A, B, C 및 D)의 제품군을 식별했다고 가정합니다. 데이터 제품 B에 대한 데이터 애플리케이션 B의 데이터에 대한 원본으로 데이터 제품 A와 D가 필요합니다. 데이터 제품 B는 데이터 제품 A 및 D에서 사용하는 데이터에서 만들어집니다. 데이터 애플리케이션 B는 데이터 생산자 자체의 역할을 하며 데이터 제품 C에 대한 데이터도 생성합니다.
코드 기반 인프라를 사용하여 데이터 애플리케이션 환경 제어
거버넌스 및 코드로서의 인프라는 이전 다이어그램과 같이 데이터 제품 에코시스템 전체에서 데이터 애플리케이션 환경을 제어해야 합니다.
데이터 모델 게시
데이터 제품 팀은 모델링 리포지토리에 데이터 모델을 게시해야 합니다.
데이터 제품 사용자에 대한 기대치 설정
데이터 제품의 잠재적 사용자에게 정확한 기대치를 전달할 수 있도록 데이터 제품에 대한 서비스 수준 계약 및 인증으로 데이터 공유 계약을 업데이트합니다.
계보 캡처
데이터 제품 A 및 D에서 들어오는 데이터에서 데이터 제품 B를 만든 경우 계보는 A 및 D에서 B로 캡처되어야 합니다. 데이터 제품 B의 데이터를 사용하여 생성되므로 데이터 제품 C에 대한 추가 계보도 캡처해야 합니다. 업데이트된 계보는 데이터 제품의 모든 릴리스 전에 데이터 계보 애플리케이션에서 캡처해야 합니다.
메모
Azure Pipelines를 사용하면 승인 게이트를 빌드하고 메타데이터, 계보 및 SLA가 올바른 거버넌스 서비스에 등록되도록 할 수 있는 함수를 호출할 수 있습니다.
데이터 애플리케이션 아키텍처 정의
다른 데이터 제품과의 관계, 종속성 및 액세스 요구 사항을 완전히 정의하는 각 데이터 제품에 대한 자세한 아키텍처를 만들어야 합니다.