솔루션 아이디어
이 문서는 솔루션 아이디어 설명입니다. 클라우드 설계자는 이 지침을 사용하여 이 아키텍처의 일반적인 구현을 위한 주요 구성 요소를 시각화할 수 있습니다. 이 문서를 시작점으로 사용하여 워크로드의 특정 요구 사항에 맞는 잘 설계된 솔루션을 디자인할 수 있습니다.
이 솔루션은 최신 데이터 아키텍처의 주요 원칙과 구성 요소를 간략하게 설명합니다. Azure Databricks는 솔루션의 핵심을 형성합니다. 이 플랫폼은 Azure Data Lake Storage, Microsoft Fabric 및 Power BI와 같은 다른 서비스와 원활하게 작동합니다.
Apache® 및 Apache Spark™는 미국 및/또는 기타 국가에서 Apache Software Foundation의 등록 상표 또는 상표입니다. 이러한 표시의 사용은 Apache Software Foundation에 의한 보증을 암시하지 않습니다.
아키텍처
최신 데이터 아키텍처가 데이터를 수집, 처리, 분석 및 시각화하는 방법을 보여 주는
이 아키텍처의 Visio 파일을 다운로드합니다.
데이터 흐름
Azure Databricks는 델타 라이브 테이블을 사용하여 Azure Event Hubs에서 원시 스트리밍 데이터를 수집합니다.
Fabric Data Factory는 원시 일괄 처리 데이터를 Data Lake Storage에 로드합니다.
데이터 스토리지의 경우:
Data Lake Storage는 구조화, 구조화되지 않은 데이터 및 부분적으로 구조화된 데이터를 포함하여 모든 유형의 데이터를 보관합니다. 일괄 처리 및 스트리밍 데이터도 저장합니다.
Delta Lake는 데이터 레이크의 큐레이팅된 계층을 형성합니다. 구체화된 데이터를 오픈 소스 형식으로 저장합니다.
Azure Databricks는 데이터를 계층으로 구성하는 medallion 아키텍처와 잘 작동합니다.
- 브론즈 계층: 원시 데이터를 보유합니다.
- 실버 계층: 정리되고 필터링된 데이터를 포함합니다.
- 골드 계층: 비즈니스 분석에 유용한 집계된 데이터를 저장합니다.
분석 플랫폼은 서로 다른 일괄 처리 및 스트리밍 원본에서 데이터를 수집합니다. 데이터 과학자는 다음과 같은 작업에 이 데이터를 사용합니다.
- 데이터 준비.
- 데이터 살펴보기.
- 모델 준비.
- 모델 학습.
MLflow는 데이터 과학 코드 실행에서 매개 변수, 메트릭 및 모델 추적을 관리합니다. 코딩 가능성은 유연합니다.
- 코드는 SQL, Python, R 및 Scala에 있을 수 있습니다.
- 코드는 사전 설치 및 최적화된 Koalas, Pandas 및 scikit-learn과 같은 인기 있는 오픈 소스 라이브러리 및 프레임워크를 사용할 수 있습니다.
- 사용자는 단일 노드 및 다중 노드 컴퓨팅 옵션을 사용하여 성능 및 비용을 최적화할 수 있습니다.
기계 학습 모델은 다음 형식으로 사용할 수 있습니다.
- Azure Databricks는 MLflow 모델 레지스트리에 모델에 대한 정보를 저장합니다. 레지스트리를 사용하면 일괄 처리, 스트리밍 및 REST API를 통해 모델을 사용할 수 있습니다.
- 이 솔루션은 Azure Machine Learning 웹 서비스 또는 AKS(Azure Kubernetes Service)에 모델을 배포할 수도 있습니다.
데이터와 함께 작동하는 서비스는 일관성을 보장하기 위해 단일 기본 데이터 원본에 연결됩니다. 예를 들어 Azure Databricks SQL 웨어하우스를 사용하여 데이터 레이크에서 SQL 쿼리를 실행할 수 있습니다. 이 서비스는 다음과 같은 일을 합니다.
- 쿼리 편집기 및 카탈로그, 쿼리 기록, 기본 대시보드 및 경고를 제공합니다.
- 행 수준 권한 및 열 수준 사용 권한을 포함하는 통합 보안을 사용합니다.
- Photon 지원 델타 엔진을 사용하여 성능향상합니다.
Azure Databricks Unity 카탈로그에서 패브릭으로 골드 데이터 세트를 미러링할 수 있습니다. 패브릭 Azure Databricks 미러링을 사용하여 데이터를 이동하거나 복제할 필요 없이 쉽게 통합할 수 있습니다.
Power BI는 통합 데이터 플랫폼에서 분석 및 기록 보고서 및 대시보드를 생성합니다. 이 서비스는 Azure Databricks에서 작동하는 경우 다음 기능을 사용합니다.
- 기본 데이터를 시각화하기 위한 기본 제공 Azure Databricks 커넥터.
- 최적화된 Java 데이터베이스 연결 및 Open Database Connectivity 드라이버.
- 패브릭에서 Azure Databricks 미러링과 함께 Direct Lake 사용하여 고성능 쿼리를 위한 Power BI 의미 체계 모델을 로드할 수 있습니다.
이 솔루션은 공동 작업, 성능, 안정성, 거버넌스 및 보안을 위해 Unity 카탈로그 및 Azure 서비스를 사용합니다.
Azure Databricks Unity 카탈로그는 Azure Databricks 작업 영역에서 중앙 집중식 액세스 제어, 감사, 계보 및 데이터 검색 기능을 제공합니다.
Microsoft Purview는 데이터 자산 전반에 걸쳐 데이터 검색 서비스, 중요한 데이터 분류 및 거버넌스 인사이트를 제공합니다.
Azure DevOps는 CI/CD(연속 통합 및 지속적인 배포) 및 기타 통합 버전 제어 기능을 제공합니다.
Azure Key Vault를 사용하면 비밀, 키 및 인증서를 안전하게 관리할 수 있습니다.
Microsoft Entra ID 및 SCIM(도메인 간 ID 관리) 프로비저닝은 Azure Databricks 사용자 및 그룹에 대한 Single Sign-On을 제공합니다. Azure Databricks는 다음을 위해 Microsoft Entra ID를 사용하여 자동화된 사용자 프로비저닝을 지원합니다.
- 새 사용자 및 그룹을 만듭니다.
- 각 사용자에게 액세스 수준을 할당합니다.
- 사용자를 제거하고 액세스를 거부합니다.
Azure Monitor는 Azure 리소스 원격 분석을 수집하고 분석합니다. 이 서비스는 문제를 사전에 식별하여 성능과 안정성을 최대화합니다.
Microsoft Cost Management는 Azure 워크로드에 대한 재무 거버넌스 서비스를 제공합니다.
구성 요소
이 솔루션은 다음과 같은 구성 요소를 사용합니다.
핵심 구성 요소
Azure Databricks Spark 클러스터를 사용하여 대규모 데이터 스트림을 처리하는 데이터 분석 플랫폼입니다. 구조화되지 않은 데이터를 정리 및 변환하고 구조화된 데이터와 결합합니다. 기계 학습 모델을 학습시키고 배포할 수도 있습니다. 이 아키텍처에서 Azure Databricks는 데이터 수집, 처리 및 서비스를 위한 중앙 도구 역할을 합니다. 전체 데이터 수명 주기를 관리하기 위한 통합 환경을 제공합니다.
azure Databricks SQL 웨어하우스 Azure Databricks에서 데이터를 쿼리하고 탐색하는 데 사용할 수 있는 컴퓨팅 리소스입니다. 이 아키텍처에서는 SQL 엔드포인트를 사용하여 Power BI에서 데이터에 직접 연결할 수 있습니다.
azure Databricks Delta Live Tables
신뢰할 수 있고 유지 관리 가능하며 테스트 가능한 데이터 처리 파이프라인을 빌드하기 위한 선언적 프레임워크입니다. 이 아키텍처에서 Delta Live Tables는 데이터에서 수행할 변환을 정의하는 데 도움이 됩니다. 또한 Azure Databricks 내에서 작업 오케스트레이션, 클러스터 관리, 모니터링, 데이터 품질 및 오류 처리를 관리하는 데 도움이 됩니다. Microsoft Fabric 통합 솔루션이 필요한 조직을 위한 엔드 투 엔드 분석 및 데이터 플랫폼입니다. 이 플랫폼은 데이터 엔지니어링, Data Factory, 데이터 과학, Real-Time 인텔리전스, 데이터 웨어하우스 및 데이터베이스와 같은 서비스를 제공합니다. 이 아키텍처는 Unity 카탈로그 테이블을 패브릭으로 미러링하고 성능 향상을 위해 Power BI의 Direct Lake를 사용합니다.
Microsoft Fabric Data Factory는 Fabric의 풍부한 데이터 원본 집합에서 데이터를 수집, 준비 및 변환하는 데 사용할 수 있는 최신 데이터 통합 플랫폼입니다. 이 아키텍처는 Data Lake Storage 또는 OneLake로 빠르게 수집하기 위해 여러 데이터 원본에 기본 제공 커넥터를 사용합니다. Azure Databricks는 나중에 일괄 처리 데이터를 검색하고 추가로 변환합니다.
Event Hubs 완전히 관리되는 빅 데이터 스트리밍 플랫폼입니다. 서비스로서의 플랫폼으로서 이벤트 수집 기능을 제공합니다. 이 아키텍처는 스트리밍 데이터에 Event Hubs를 사용합니다. Azure Databricks는 Spark 스트리밍 또는 델타 라이브 테이블을 사용하여 이 데이터에 연결하고 처리할 수 있습니다.
Data Lake Storage 고성능 분석을 위한 확장 가능하고 안전한 데이터 레이크입니다. 여러 페타바이트의 데이터를 처리하고 수백 기가비트의 처리량을 지원합니다. Data Lake Storage는 구조화되고, 부분적으로 구조화되고, 구조화되지 않은 데이터를 저장할 수 있습니다. 이 아키텍처는 Data Lake Storage를 사용하여 일괄 처리 및 스트리밍 데이터를 모두 저장합니다.
Machine Learning 예측 분석 솔루션을 빌드, 배포 및 관리하는 데 도움이 되는 클라우드 기반 환경입니다. 이러한 모델을 사용하여 동작, 결과 및 추세를 예측할 수 있습니다. 이 아키텍처에서 Machine Learning은 Azure Databricks가 모델 학습 및 유추를 위해 변환하는 데이터를 사용합니다.
AKS는 고가용성의 안전한 완전 관리형 Kubernetes 서비스입니다. AKS를 사용하면 컨테이너화된 애플리케이션을 쉽게 배포하고 관리할 수 있습니다. 이 아키텍처에서 AKS는 확장 가능한 추론을 위해 컨테이너화된 환경에서 기계 학습 모델을 호스트합니다.
Delta Lake는 열린 파일 형식을 사용하는 스토리지 계층입니다. 이 계층은 Data Lake Storage와 같은 클라우드 스토리지 솔루션에서 실행됩니다. Delta Lake는 데이터 업데이트, 삭제 및 병합을 위한 데이터 버전 관리, 롤백 및 트랜잭션을 지원합니다. 이 아키텍처에서 Delta Lake는 Data Lake Storage에서 데이터를 쓰고 읽기 위한 기본 파일 형식으로 작동합니다.
MLflow 기계 학습 수명 주기를 관리하기 위한 오픈 소스 플랫폼입니다. 해당 구성 요소는 학습 및 작업 중에 기계 학습 모델을 모니터링합니다. Machine Learning과 마찬가지로 이 아키텍처에서는 Azure Databricks의 MLflow를 사용하여 기계 학습 수명 주기를 관리할 수 있습니다. Azure Databricks 내에서 변환한 Unity 카탈로그 데이터를 사용하여 모델을 학습시키고 유추합니다.
보고 및 관리 구성 요소
Azure Databricks Unity 카탈로그 Azure Databricks 작업 영역에서 중앙 집중식 액세스 제어, 감사, 계보 및 데이터 검색 기능을 제공합니다. 이 아키텍처에서 Unity 카탈로그는 Azure Databricks 내의 기본 도구로 작동하여 데이터 액세스를 관리하고 보호합니다.
Power BI는 소프트웨어 서비스 및 앱의 컬렉션입니다. 이러한 서비스는 관련 없는 데이터 원본을 연결하고 시각화하는 보고서를 만들고 공유합니다. Power BI는 Azure Databricks와 함께 근본 원인 결정 및 원시 데이터 분석을 제공할 수 있습니다. 이 아키텍처는 Power BI를 사용하여 Azure Databricks 및 Fabric이 처리하는 데이터에 대한 인사이트를 제공하는 대시보드 및 보고서를 만듭니다.
Microsoft Purview는 온-프레미스, 다중 클라우드 및 SaaS(서비스 제공 소프트웨어) 데이터를 관리합니다. 이 거버넌스 서비스는 데이터 환경 맵을 유지 관리합니다. 해당 기능에는 자동화된 데이터 검색, 중요한 데이터 분류 및 데이터 계보가 포함됩니다. 이 아키텍처는 Microsoft Purview를 사용하여 Unity 카탈로그, 패브릭, Power BI 및 Data Lake Storage에서 수집되는 데이터를 검색하고 추적합니다.
Azure DevOps는 DevOps 오케스트레이션 플랫폼입니다. 이 SaaS는 애플리케이션을 빌드, 배포 및 공동 작업할 수 있는 도구와 환경을 제공합니다. 이 아키텍처는 Azure DevOps를 사용하여 Azure 인프라 배포를 자동화합니다. 또한 Azure Databricks 코드의 자동화 및 버전 제어에 GitHub를 사용하여 CI/CD 파이프라인과의 협업, 변경 내용 추적 및 통합을 향상할 수 있습니다.
Key Vault는 토큰, 암호 및 API 키와 같은 비밀에 대한 액세스를 저장하고 제어할 있습니다. 또한 Key Vault는 암호화 키를 만들고 제어하며 보안 인증서를 관리합니다. 이 아키텍처는 Key Vault를 사용하여 Data Lake Storage의 공유 액세스 서명 키를 저장합니다. 그런 다음, 이러한 키는 인증을 위해 Azure Databricks 및 기타 서비스에서 사용됩니다.
Microsoft Entra ID 는 클라우드 기반 ID 및 액세스 관리 서비스를 제공합니다. 이러한 기능은 사용자가 로그인하고 리소스에 액세스할 수 있는 방법을 제공합니다. 이 아키텍처는 Microsoft Entra ID를 사용하여 Azure에서 사용자 및 서비스를 인증하고 권한을 부여합니다.
SCIM 사용하면 Microsoft Entra ID를 사용하여 Azure Databricks 계정에 대한 프로비저닝을 설정할 수 있습니다. 이 아키텍처는 SCIM을 사용하여 Azure Databricks 작업 영역에 액세스하는 사용자를 관리합니다.
Azure Monitor 환경 및 Azure 리소스의 데이터를 수집하고 분석합니다. 이 데이터에는 성능 메트릭, 활동 로그 등의 앱 원격 분석이 포함됩니다. 이 아키텍처는 Azure Monitor를 사용하여 Azure Databricks 및 Machine Learning 및 Azure Monitor로 로그를 보내는 기타 구성 요소에서 컴퓨팅 리소스의 상태를 모니터링합니다.
Cost Management 통해 클라우드 지출을 관리할 수 있습니다. 이 서비스는 예산 및 권장 사항을 사용하여 비용을 구성하고 비용을 절감하는 방법을 보여 줍니다. 이 아키텍처는 Cost Management를 사용하여 전체 솔루션의 비용을 모니터링하고 제어합니다.
시나리오 정보
최신 데이터 아키텍처:
- 데이터, 분석 및 AI 워크로드를 통합합니다.
- 모든 규모에서 효율적이고 안정적으로 실행합니다.
- 분석 대시보드, 운영 보고서 또는 고급 분석을 통해 인사이트를 제공합니다.
이 솔루션은 이러한 목표를 달성하는 최신 데이터 아키텍처를 간략하게 설명합니다. Azure Databricks는 솔루션의 핵심을 형성합니다. 이 플랫폼은 다른 서비스와 원활하게 작동합니다. 이러한 서비스는 다음과 같은 솔루션을 제공합니다.
- 단순: 통합 분석, 데이터 과학 및 기계 학습은 데이터 아키텍처를 간소화합니다.
- 개방성: 이 솔루션은 오픈 소스 코드, 개방형 표준 및 개방형 프레임워크를 지원합니다. 또한 널리 사용되는 IDE(통합 개발 환경), 라이브러리, 프로그래밍 언어에서도 작동합니다. 네이티브 커넥터와 API를 통해 솔루션은 광범위한 다른 서비스에서도 작동합니다.
- 협업: 데이터 엔지니어, 데이터 과학자, 분석가가 이 솔루션을 사용하여 협업합니다. 협업 Notebook, IDE, 대시보드, 기타 도구를 사용하여 일반적인 기본 데이터에 액세스하고 분석할 수 있습니다.
잠재적인 사용 사례
Swiss Re Group이 재산 및 사고 재보험 부서를 위해 구축한 시스템은 이 솔루션에 영감을 줍니다. 보험 업계 외에도 빅 데이터 또는 기계 학습과 함께 작동하는 모든 영역도 이 솔루션의 이점을 누릴 수 있습니다. 다음은 이러한 템플릿의 예입니다.
- 에너지 부문.
- 소매 및 전자 상거래.
- 은행 및 금융.
- 의학 및 의료.
다음 단계
- Azure Databricks 엔드 투 엔드 데이터 파이프라인 빌드
- 첫 번째 Delta Live Tables 파이프라인 실행
관련 참고 자료
관련 솔루션에 대한 자세한 내용은 다음 가이드 및 아키텍처를 참조하세요.
관련 아키텍처 가이드
- Azure Monitor 사용하여 Azure Databricks 모니터링
- Microsoft에서 기계 학습 제품 비교
- 자연어 처리 기술 선택
- 스트림 처리 기술 선택