편집

다음을 통해 공유


중소기업에 최신 데이터 웨어하우스 사용

Azure 데이터 레이크
Azure SQL Database
Microsoft Fabric

이 문서에서는 중소기업(SMB)이 현재 예산 및 기술 집합을 과도하게 확장하지 않고 레거시 데이터 저장소를 현대화하고 빅 데이터 도구 및 기능을 탐색할 수 있는 여러 가지 방법을 설명합니다. 이러한 포괄적인 데이터 웨어하우징 솔루션은 Azure Machine Learning, Azure AI 서비스, Microsoft Power Platform, Microsoft Dynamics 365 및 기타 Microsoft 기술과 원활하게 통합됩니다. 이러한 솔루션은 요구 사항이 증가함에 따라 확장할 수 있는 Microsoft Fabric의 완전 관리형 SaaS(Software as a Service) 데이터 플랫폼에 대한 쉬운 진입점을 제공합니다.

500GB 미만의 데이터 웨어하우징 솔루션에 온-프레미스 SQL Server를 사용하는 SMB는 이 패턴을 사용하면 도움이 될 수 있습니다. SSIS(SQL Server Integration Services), SSAS(SQL Server Analysis Services), SSRS(SQL Server Reporting Services), 일반적인 SQL 저장 프로시저, ETL(외부 추출, 변환 및 로드) 및 ELT(추출, 로드, 변환) 도구, SQL Server 에이전트 작업 및 SQL 스냅샷 복제를 포함하여 데이터 웨어하우징 솔루션으로 데이터 수집을 위한 다양한 도구를 사용합니다. 데이터 동기화 작업은 일반적으로 스냅샷 기반이며 하루에 한 번 수행되며 실시간 보고 요구 사항이 없습니다.

단순화된 아키텍처

간소화된 SMB 아키텍처를 보여 주는 다이어그램

이 아키텍처의 Visio 파일을 다운로드합니다.

개념적 현대화 기회에는 레거시 데이터 웨어하우징 솔루션을 Azure SQL Database, Azure SQL Managed Instance 및 Fabric의 조합으로 전환하는 작업이 포함됩니다. 이 전략은 기존 SQL Server 및 SQL Server Management Studio(SSMS)와 같은 SQL 클라이언트 도구와의 광범위한 호환성을 보장합니다. 또한 기존 프로세스에 대한 리프트 앤 시프트 옵션을 제공하며 지원 팀에 최소한의 업스킬링이 필요합니다. 이 솔루션은 데이터 웨어하우스가 확장되고 팀의 기술 집합이 증가함에 따라 조직이 Lakehouse 접근 방식을 완전히 채택할 수 있도록 하는 포괄적인 현대화를 위한 초기 단계의 역할을 합니다.

아키텍처

향후 요구 사항을 충족하도록 설계된 확장된 아키텍처를 보여 주는 다이어그램.

이 아키텍처의 Visio 파일을 다운로드합니다.

레거시 SMB 데이터 웨어하우스에는 다음과 같은 여러 유형의 데이터가 포함될 수 있습니다.

  • 문서 및 그래픽과 같은 구조화되지 않은 데이터입니다.

  • 로그, CSV, JSON 및 XML 파일과 같은 반구조화된 데이터입니다.

  • ETL 및 ELT 작업에 저장 프로시저를 사용하는 데이터베이스를 포함하여 구조화된 관계형 데이터입니다.

데이터 흐름

다음 데이터 흐름은 이전 다이어그램에 해당합니다. 선택한 데이터 형식의 수집을 보여 줍니다.

  1. 패브릭 데이터 파이프라인 또는 Azure Data Factory 파이프라인은 트랜잭션 데이터의 수집을 데이터 웨어하우징 솔루션으로 오케스트레이션합니다.

    • 파이프라인은 마이그레이션되거나 부분적으로 리팩터링된 레거시 데이터베이스 및 SSIS 패키지의 흐름을 SQL Database 및 SQL Managed Instance로 오케스트레이션합니다. 이 리프트 앤 시프트 방식을 신속하게 구현하여 온-프레미스 SQL 솔루션에서 향후 Fabric SaaS 환경으로 원활하게 전환할 수 있습니다. 리프트 앤 시프트 후에 데이터베이스를 증분 방식으로 현대화할 수 있습니다.

    • 파이프라인은 비정형, 반구조화 및 구조화된 데이터를 Azure Data Lake Storage에 전달하여 중앙 집중식 스토리지 및 다른 원본을 사용하여 분석할 수 있습니다. 데이터를 융합하면 데이터를 다시 배치하는 것보다 더 많은 비즈니스 이점을 제공하는 경우 이 방법을 사용합니다.

  2. Microsoft Dynamics 365 데이터 원본을 사용하여 패브릭 서버리스 분석 도구를 사용하여 보강된 데이터 세트에 중앙 집중식 BI(비즈니스 인텔리전스) 대시보드를 빌드합니다. 융합 및 처리된 데이터를 Dynamics로 다시 가져와서 Fabric 내에서 추가 분석에 사용할 수 있습니다.

  3. 스트리밍 원본의 실시간 데이터는 Azure Event Hubs 또는 기타 스트리밍 솔루션을 통해 시스템에 입력할 수 있습니다. 실시간 대시보드 요구 사항이 있는 고객의 경우 패브릭 실시간 분석에서 이 데이터를 즉시 분석할 수 있습니다.

  4. Data Lake Storage 바로 가기를 사용하여 추가 분석, 스토리지 및 보고를 위해 중앙 집중식 Fabric OneLake로 데이터를 수집할 수 있습니다. 이 프로세스는 현재 위치 분석을 가능하게 하고 다운스트림 사용을 용이하게 합니다.

  5. SQL Analytics 엔드포인트 및 패브릭 Spark 기능과 같은 서버리스 분석 도구는 패브릭 내에서 요청 시 사용할 수 있으며 프로비전된 리소스가 필요하지 않습니다. 서버리스 분석 도구는 다음 작업에 적합합니다.

    • OneLake 데이터에 대한 ETL 및 ELT 작업입니다.

    • DirectLake 기능을 통해 Power BI 보고서에 medallion 아키텍처의 골드 계층을 제공합니다.

    • T-SQL 형식 또는 Python의 즉석 데이터 과학 탐색

    • 데이터 웨어하우스 엔터티의 초기 프로토타입 생성

패브릭은 Power BI 프런트 엔드 보고서, Machine Learning, Power Apps, Azure Logic Apps, Azure Functions 및 Azure 앱 Service 웹앱을 비롯한 다중 원본 데이터 세트의 잠재적 소비자와 긴밀하게 통합됩니다.

구성 요소

  • 패브릭 은 데이터 엔지니어링, 데이터 웨어하우징, 데이터 과학, 실시간 데이터 및 BI 기능을 결합한 분석 서비스입니다. 이 솔루션 에서 패브릭 데이터 엔지니어링 기능은 데이터 엔지니어, 데이터 과학자, 데이터 분석가 및 BI 전문가를 위한 공동 작업 플랫폼을 제공합니다. 이 주요 구성 요소는 서버리스 컴퓨팅 엔진에서 구동되며 고객에게 배포되는 인사이트를 생성하여 비즈니스 가치를 제공합니다.

  • SQL DatabaseSQL Managed Instance 는 클라우드 기반 관계형 데이터베이스 서비스입니다. SQL Database 및 SQL Managed Instance는 SSMS를 사용하여 저장 프로시저와 같은 레거시 아티팩트 개발 및 유지 관리 이 솔루션에서 이러한 서비스는 엔터프라이즈 데이터 웨어하우스를 호스트하고 저장 프로시저 또는 외부 패키지를 사용하여 ETL 및 ELT 작업을 수행합니다. SQL Database 및 SQL Managed Instance는 고가용성 및 재해 복구 요구 사항을 충족하는 데 사용할 수 있는 PaaS(Platform as a Service) 환경입니다. 요구 사항을 충족하는 SKU를 선택해야 합니다. 자세한 내용은 SQL Database의 고가용성 및 SQL Managed Instance의 고가용성을 참조하세요.

  • SSMS 는 저장 프로시저와 같은 레거시 아티팩트를 개발하고 유지 관리하는 데 사용할 수 있는 SQL 인프라를 관리하기 위한 통합 환경입니다.

  • Event Hubs 는 실시간 데이터 스트리밍 플랫폼 및 이벤트 수집 서비스입니다. Event Hubs는 Azure 데이터 서비스와 원활하게 통합되며 어디서나 데이터를 수집할 수 있습니다.

대안

  • Azure IoT Hub를 사용하여 Event Hubs 를 대체하거나 보완할 수 있습니다. 스트리밍 데이터의 원본 및 보고 디바이스와의 복제 및 양방향 통신이 필요한지 여부에 따라 솔루션을 선택합니다.

  • 데이터 통합을 위해 Data Factory 파이프라인 대신 패브릭 데이터 파이프라인을 사용할 수 있습니다. 귀하의 결정은 몇 가지 요인에 따라 달라집니다. 자세한 내용은 Azure Data Factory에서 Fabric의 Data Factory로 가져오기를 참조 하세요.

  • SQL Database 또는 SQL Managed Instance 대신 Fabric Warehouse를 사용하여 엔터프라이즈 데이터를 저장할 수 있습니다. 이 문서에서는 데이터 웨어하우스를 현대화하려는 고객을 위해 출시 시간을 우선합니다. 패브릭의 데이터 저장소 옵션에 대한 자세한 내용은 패브릭 의사 결정 가이드를 참조 하세요.

시나리오 정보

SMB는 클라우드용 온-프레미스 데이터 웨어하우스를 현대화할 때 향후 확장성을 위해 빅 데이터 도구를 채택하거나 비용 효율성, 유지 관리 용이성 및 원활한 전환을 위해 기존 SQL 기반 솔루션을 사용할 수 있습니다. 하이브리드 접근 방식은 최신 도구와 AI 기능을 사용하는 동시에 두 가지 면에서 가장 적합한 기능을 제공하며 기존 데이터 자산을 쉽게 마이그레이션할 수 있도록 합니다. SMB는 SQL 기반 데이터 원본을 클라우드에서 계속 실행하고 필요에 따라 현대화할 수 있습니다.

이 문서에서는 SMB가 레거시 데이터 저장소를 현대화하고 현재 예산 및 기술 집합을 늘리지 않고 빅 데이터 도구 및 기능을 탐색하기 위한 몇 가지 전략을 설명합니다. 이러한 포괄적인 Azure 데이터 웨어하우징 솔루션은 AI 서비스, Microsoft Dynamics 365 및 Microsoft Power Platform을 포함하여 Azure 및 Microsoft 서비스 원활하게 통합됩니다.

잠재적인 사용 사례

  • 1TB 미만이고 SSIS 패키지를 사용하여 저장 프로시저를 오케스트레이션하는 기존 온-프레미스 관계형 데이터 웨어하우스를 마이그레이션합니다.

  • 일괄 처리된 실시간 Data Lake 원본을 사용하여 기존 Dynamics 또는 Microsoft Power Platform Dataverse 데이터를 메시합니다.

  • 혁신적인 기술을 사용하여 중앙 집중식 Azure Data Lake Storage Gen2 데이터와 상호 작용합니다. 이러한 기술에는 서버리스 분석, 지식 마이닝, 도메인 간의 데이터 융합 및 패브릭 코필로트를 포함한 최종 사용자 데이터 탐색이 포함됩니다.

  • 운영 최적화를 위해 데이터 웨어하우스를 채택하도록 전자 상거래 회사를 설정합니다.

이 솔루션은 다음 용도로는 권장되지 않습니다.

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화를 위한 디자인 검토 검사 목록을 참조하세요.

  • Azure 가격 계산기를 사용하면 값을 수정하여 특정 요구 사항이 비용에 미치는 영향을 이해할 수 있습니다. Azure 가격 계산기에서 SMB 데이터 웨어하우징 시나리오에 대한 가격 책정 샘플을 볼 수 있습니다.

  • SQL Database 가격은 선택한 컴퓨팅 및 서비스 계층과 vCore 및 데이터베이스 트랜잭션 단위의 수에 따라 달라집니다. 이 예제에서는 프로비전된 컴퓨팅과 8개의 vCore가 있는 단일 데이터베이스를 설명하고 SQL Database에서 저장 프로시저를 실행해야 한다고 가정합니다.

  • Data Lake Storage Gen2 가격은 저장하는 데이터의 양과 데이터 사용 빈도에 따라 달라집니다. 샘플 가격 책정에는 1TB의 데이터 스토리지 및 기타 트랜잭션 가정이 포함됩니다. 1TB는 원래 레거시 데이터베이스의 크기가 아니라 데이터 레이크의 크기를 나타냅니다.

  • 패브릭 가격은 패브릭 F 용량 가격 또는 1인당 프리미엄 가격에 따라 달라집니다. 서버리스 기능은 구매한 전용 용량의 CPU 및 메모리를 사용합니다.

  • Event Hubs 가격은 선택한 계층, 프로비전된 처리량 단위 수 및 수신된 수신 트래픽에 따라 달라집니다. 이 예제에서는 표준 계층의 처리량 단위가 매월 100만 개 이상의 이벤트를 처리하고 있다고 가정합니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음 단계