데이터 메시란?
데이터 메시는 크고 복잡한 조직에서 엔터프라이즈 데이터 플랫폼을 구현하기 위한 아키텍처 패턴입니다. 데이터 메시는 단일 플랫폼 및 단일 구현 팀을 넘어 분석 채택을 확장하는 데 도움이 됩니다.
배경
분석의 필요성은 새로운 것이 아닙니다. 조직은 항상 비즈니스 성과를 분석해야 하며, 도입 이후 컴퓨터를 사용하여 이를 수행해 왔습니다. 1980년대 무렵, 조직은 의사 결정 지원을 위해 데이터베이스를 사용하여 데이터 웨어하우징 솔루션을 빌드하기 시작했습니다. 이러한 데이터 웨어하우징 솔루션은 오랫동안 조직에 도움이 되었습니다.
그러나 비즈니스가 변경되고 더 다양한 데이터를 생성함에 따라 관계형 데이터베이스를 사용하는 데이터 웨어하우징 솔루션이 항상 최상의 솔루션은 아닐 수 있습니다. 2000년대에 빅 데이터는 일반적인 용어가 되었습니다. 기업은 매우 빠른 속도로 생성될 수 있는 대량의 다양한 데이터를 분석할 수 있는 새로운 솔루션을 채택했습니다. 여기에는 데이터 레이크와 같은 기술 및 대량의 데이터를 분석하는 스케일 아웃 솔루션이 포함됩니다.
최근 몇 년 동안 많은 조직에서 데이터 웨어하우징 기술과 최신 빅 데이터 기술을 결합한 최신 아키텍처 및 분석 패턴을 성공적으로 사용했습니다.
그러나 일부 조직에서는 분석 패턴을 사용하는 분석 솔루션을 배포할 때 문제가 발생합니다. 이러한 솔루션은 일반적으로 단일 팀이 플랫폼 공급자이고 팀이 데이터 통합을 수행하는 모놀리식 솔루션으로 구현됩니다. 팀 설정 관점에서 높은 수준의 중앙 집중화를 가진 소규모 조직 및 조직은 단일 팀을 사용할 수 있습니다. 그러나 단일 팀만 사용하는 대규모 조직에서는 종종 병목 현상이 발생합니다. 이 병목 현상으로 인해 대규모 백로그가 발생하므로 조직 일부가 데이터 통합 서비스 및 분석 솔루션을 기다리고 있습니다.
조직이 최신 데이터 과학 솔루션을 채택함에 따라 이 패턴이 더 일반화됩니다. 많은 최신 데이터 과학 솔루션에는 과거에 했던 기존 비즈니스 인텔리전스 솔루션보다 더 많은 데이터가 필요합니다.
최근 마이크로 서비스를 애플리케이션 개발 패턴으로 사용하도록 전환한 것은 데이터 원본 수를 늘리기 때문에 데이터 통합에 대한 긴 백로그의 또 다른 동인입니다.
대규모 조직의 단일 플랫폼에서 모든 데이터 수집을 처리하는 단일 팀도 문제가 될 수 있습니다. 한 팀에 모든 데이터 원본에 대한 전문가가 있는 경우가 거의 없습니다. 대부분의 조직은 비즈니스 관점에서 탈중앙화되고 분산됩니다. 각 사업부와 부서가 비즈니스 운영의 여러 부분을 처리하므로 데이터 전문가는 일반적으로 다양한 부문에 분산됩니다.
이러한 문제를 해결하기 위해 데이터 메시라는 패턴이 도입되었습니다. 데이터 메시의 목표는 분산된 팀이 분산되고 민첩한 방식으로 정보를 사용하고 공유할 수 있도록 하는 것입니다.
데이터 메시는 조직 변경이 필요한 기술 패턴입니다. 데이터 메시 접근 방식의 이점은 데이터 제품을 게시하고 사용하는 다중 분야 팀을 구현하여 얻을 수 있습니다.
다음 개념은 데이터 메시 아키텍처를 이해하기 위한 기초입니다.
- 데이터 도메인
- 데이터 제품
- 셀프 서비스 플랫폼
- 페더레이션 거버넌스
데이터 도메인
데이터 도메인은 데이터 메시의 기초입니다. 데이터 도메인의 개념은 복잡한 소프트웨어 솔루션을 모델링하기 위해 소프트웨어 개발에 자주 사용되는 패러다임인 DDD(Domain Driven Development)에서 비롯됩니다. 데이터 메시에서 데이터 도메인은 엔터프라이즈 데이터에 대한 경계를 정의하는 방법입니다. 도메인은 조직에 따라 달라질 수 있으며 경우에 따라 조직 주변의 도메인을 정의할 수 있습니다. 다른 경우에는 비즈니스 프로세스 또는 원본 시스템을 기반으로 데이터 도메인을 모델링하도록 선택할 수 있습니다.
데이터 도메인에는 다음과 같은 세 가지 측면이 있습니다.
선택한 경계는 장기 소유권으로 렌더링됩니다. 오랜 시간 동안 존재하고 소유자를 식별했습니다.
도메인은 이론적 개념뿐만 아니라 현실과 일치해야 합니다.
도메인에는 원자성 무결성이 있어야 합니다. 영역이 서로 관계가 없는 경우 도메인에 결합하지 마세요.
데이터 도메인 및 데이터 도메인을 정의하는 방법에 대한 자세한 내용은 데이터 도메인을 참조 하세요.
데이터 제품
데이터 제품은 데이터 메시의 또 다른 중요한 구성 요소입니다. 데이터 제품은 제품에 관한 생각을 데이터 세계로 가져가는 것을 목표로 합니다. 데이터 제품이 성공하려면 의도한 사용자에게 장기적인 비즈니스 가치를 제공해야 합니다. 데이터 메시에서 데이터 제품에는 데이터, 코드 자산, 메타데이터 및 관련 정책이 포함됩니다. 데이터 제품은 데이터 레이크에서 API, 보고서, 테이블 또는 데이터 세트로 제공될 수 있습니다.
성공적인 데이터 제품은 다음과 같아야 합니다.
- 사용 가능: 제품에 즉각적인 데이터 도메인 외부의 사용자가 있어야 합니다.
- 유용: 제품은 시간이 지나도 가치를 유지해야 합니다. 장기 값이 없으면 성공할 수 없습니다.
- 적합: 제품이 적합해야 합니다. 실제로 빌드할 수 없다면 제품이 성공할 수 없습니다. 제품은 데이터 가용성과 기술적인 관점에서 모두 적합해야 합니다.
데이터 제품의 코드 자산에는 데이터를 생성하는 코드와 이를 전달하는 코드가 포함됩니다. 코드 자산에는 제품 및 제품의 최종 보고서를 만드는 데 사용되는 파이프라인도 포함됩니다.
데이터 제품에 대한 자세한 내용은 Azure의 클라우드 규모 분석 데이터 제품을 참조하세요.
데이터 메시 사용에 대한 구체적인 지침은 데이터 제품이란?을 참조하세요.
셀프 서비스 플랫폼
데이터 메시의 핵심은 데이터 도메인이 자체 데이터 제품을 빌드할 수 있는 플랫폼을 갖는 것입니다. 데이터 도메인은 중앙 플랫폼 또는 중앙 플랫폼 팀에 대한 강력한 종속성 없이 사용자와 관련된 도구 및 프로세스를 사용하여 데이터 제품을 정의해야 합니다. 데이터 메시에는 자율 제품을 개발하고 관리하는 자율 팀이 있습니다.
데이터를 이해하는 비즈니스 사용자와 탈중앙화 및 맞춤을 사용하는 동안 플랫폼에서 작업하는 일반 사용자를 기억하세요. 일반 사용자가 있기 때문에 메시 기반 플랫폼의 핵심 기초로 작동하기 위해 전문 지식이 필요한 특수 도구를 사용할 수 없습니다.
셀프 서비스 데이터 플랫폼에 대한 디자인 고려 사항에 설명된 사례를 채택하여 셀프 서비스 플랫폼을 구현할 수 있습니다.
페더레이션 거버넌스
셀프 서비스 분산 데이터 플랫폼을 채택할 때는 거버넌스에 중점을 두어야 합니다. 거버넌스가 부족하면 데이터 도메인 간에 사일로 및 데이터 중복이 발생합니다. 거버넌스 요구 사항을 이해하는 사람들이 도메인에 정렬된 팀 및 데이터 소유자 사이에 있기 때문에 거버넌스를 페더레이션합니다.
페더레이션된 거버넌스를 만들려면 플랫폼 및 데이터 요구 사항 둘 다에 대해 자동화된 정책을 구현합니다. 테스트 및 모니터링에 높은 수준의 자동화를 사용합니다. 코드 우선 구현 전략을 채택하여 표준, 정책, 데이터 제품, 플랫폼 배포를 코드로 처리합니다.
페더레이션된 거버넌스 측면을 구현하는 방법에 대한 자세한 내용은 데이터 거버넌스 개요를 참조하세요.
요약
데이터 메시는 엔터프라이즈 데이터 플랫폼을 구현하는 효과적인 방법이 될 수 있지만 모든 조직에 가장 적합한 솔루션은 아닙니다. 데이터 메시에는 독립적으로 작업할 수 있는 자율 팀이 필요합니다. 데이터 메시는 독립적인 사업부를 가지고 있고 단일 플랫폼 및 구현 팀을 넘어 분석 채택을 확장해야 하는 크고 복잡한 조직에서 가장 잘 작동합니다.
데이터 메시를 사용할 때는 사일로를 만들지 않도록 거버넌스를 구현할 때 특별히 주의해야 합니다. 성공을 보장하려면 항상 구현의 핵심인 데이터 제품에 대한 생각을 합니다.