편집

다음을 통해 공유


랜딩 존에 대한 Azure Synapse Analytics

Azure Synapse Analytics
Azure Private Link
Azure Data Lake Storage
Azure Key Vault

이 문서에서는 Azure Synapse Analytics의 스케일링 가능하고 향상된 보안 배포를 위해 Azure 랜딩 존 구독을 준비하기 위한 아키텍처 접근 방식을 제공합니다. 엔터프라이즈 분석 서비스인 Azure Synapse는 데이터 웨어하우징, 빅 데이터 처리, 데이터 통합 및 관리를 결합합니다.

이 문서에서는 랜딩 존을 효과적으로 구성하고 운영하는 데 필요한 플랫폼 기반을 이미 구현했다고 가정합니다.

Apache®, Spark 및 불꽃 로고는 미국 및/또는 기타 국가에서 Apache Software Foundation의 등록 상표 또는 상표입니다. 이러한 표시의 사용은 Apache Software Foundation에 의한 보증을 암시하지 않습니다.

아키텍처

Azure Synapse 분석 참조 아키텍처를 보여 주는 다이어그램.

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

  • 이 아키텍처의 핵심 구성 요소는 데이터 수집 및 데이터 처리에서 서비스 제공 및 분석에 이르기까지 다양한 기능을 제공하는 통합 서비스인 Azure Synapse입니다. 관리형 가상 네트워크의 Azure Synapse는 작업 영역에 대한 네트워크 격리를 제공합니다. 데이터 반출 보호를 사용하도록 설정하면 아웃바운드 연결을 승인된 대상으로만 제한할 수 있습니다.
  • Azure Synapse 리소스, Azure 통합 런타임 및 관리형 가상 네트워크에 있는 Spark 풀은 관리형 프라이빗 엔드포인트를 사용하여 보안을 강화된 Azure Data Lake Storage, Azure Key Vault 및 기타 Azure 데이터 저장소에 연결할 수 있습니다. 관리형 가상 네트워크 외부에서 호스트되는 Azure Synapse SQL 풀은 엔터프라이즈 가상 네트워크의 프라이빗 엔드포인트를 통해 Azure 서비스에 연결할 수 있습니다.
  • 관리자는 관리 그룹 수준의 데이터 랜딩 존에 적용되는 Azure 정책을 통해 Azure Synapse 작업 영역, Data Lake Storage, Key Vault, Log Analytics 및 기타 데이터 저장소에 프라이빗 연결을 적용할 수 있습니다. 또한 데이터 반출 보호를 사용하도록 설정하여 송신 트래픽에 대한 향상된 보안을 제공할 수 있습니다.
  • 사용자는 Azure Synapse Private Link Hubs를 통해 제한된 온-프레미스 네트워크에서 웹 브라우저를 사용하여 Synapse Studio에 액세스합니다. Private Link Hubs는 보안이 강화된 프라이빗 링크를 통해 Synapse Studio를 로드하는 데 사용됩니다. 단일 Azure Synapse Private Link Hubs 리소스는 허브 가상 네트워크의 프라이빗 엔드포인트가 있는 연결 구독에 배포됩니다. 허브 가상 네트워크는 Azure ExpressRoute를 통해 온-프레미스 네트워크에 연결됩니다. Private Link Hubs 리소스를 사용하여 Synapse Studio를 통해 모든 Azure Synapse 작업 영역에 비공개로 연결할 수 있습니다.
  • 데이터 엔지니어는 자체 호스팅 통합 런타임에서 실행되는 Azure Synapse 파이프라인 복사 작업을 사용하여 온-프레미스 환경에서 호스트되는 데이터 저장소와 Data Lake Storage 및 SQL 풀과 같은 클라우드 데이터 저장소 간에 데이터를 수집합니다. 온-프레미스 환경은 ExpressRoute를 통해 Azure의 허브 가상 네트워크에 연결됩니다.
  • 데이터 엔지니어는 Azure Synapse Data Flow 작업 및 Spark 풀을 사용하여 관리형 프라이빗 엔드포인트를 통해 Azure Synapse 관리형 가상 네트워크에 연결된 클라우드 데이터 저장소에서 호스트되는 데이터를 변환합니다. 온-프레미스 환경에 있는 데이터의 경우 Spark 풀을 사용하여 변환하려면 사용자 지정 Private Link 서비스를 통한 연결이 필요합니다. 사용자 지정 Private Link 서비스는 NAT(Network Address Translation) VM을 사용하여 온-프레미스 데이터 저장소에 연결합니다. 관리형 가상 네트워크에서 온-프레미스 데이터 저장소에 액세스하도록 Private Link 서비스를 설정하는 방법에 대한 자세한 내용은 프라이빗 엔드포인트를 사용하여 Data Factory 관리형 VNet에서 온-프레미스 SQL Server에 액세스하는 방법을 참조하세요.
  • Azure Synapse에서 데이터 반출 보호를 사용하도록 설정하면 Log Analytics 작업 영역에 Spark 애플리케이션 로깅은 관리형 프라이빗 엔드포인트를 통해 Azure Synapse 관리형 가상 네트워크에 연결되는 Azure Monitor Private Link 범위 리소스를 통해 라우팅됩니다. 다이어그램에 표시된 것처럼, 단일 Azure Monitor Private Link 범위 리소스는 허브 가상 네트워크의 프라이빗 엔드포인트가 있는 연결 구독에서 호스트됩니다. 모든 Log Analytics 작업 영역 및 Application Insights 리소스는 Azure Monitor Private Link 범위를 통해 비공개로 연결할 수 있습니다.

구성 요소

  • Azure Synapse Analytics는 데이터 웨어하우스와 빅 데이터 시스템 전반에 걸쳐 인사이트 확보 시간을 단축하는 엔터프라이즈 분석 서비스입니다.
  • Azure Synapse 관리형 가상 네트워크는 다른 작업 영역의 Azure Synapse 작업 영역과 네트워크 격리를 만들 수 있습니다.
  • Azure Synapse 관리형 프라이빗 엔드포인트는 Azure Synapse 작업 영역과 연결된 관리형 가상 네트워크에서 만들어진 프라이빗 엔드포인트입니다. 관리형 프라이빗 엔드포인트는 관리형 가상 네트워크 외부에 있는 Azure 리소스에 대한 프라이빗 링크 연결을 설정합니다.
  • 데이터 반출 보호 기능이 있는 Azure Synapse 작업 영역은 조직의 범위를 벗어나는 위치로 중요한 데이터의 반출을 방지합니다.
  • Azure Private Link Hubs는 보안 네트워크와 Synapse Studio 웹 환경 간에 커넥터 역할을 하는 Azure 리소스입니다.
  • IR(통합 런타임)은 서로 다른 네트워크 환경에서 데이터 통합 기능을 제공하기 위해 Azure Synapse 파이프라인에서 사용하는 컴퓨팅 인프라입니다. 자체 호스팅 컴퓨팅 통합 런타임을 사용하여 관리형 Azure 컴퓨팅 통합 런타임 또는 네트워크 간 복사 작업에서 데이터 흐름 작업을 실행합니다.
  • Azure Private Link는 Azure에서 호스트되는 서비스에 대한 프라이빗 액세스를 제공합니다. Azure Private Link 서비스는 Private Link에서 제공하는 자체 서비스에 대한 참조입니다. Private Link 액세스를 위해 Azure 표준 Load Balancer 뒤에서 실행되는 서비스를 사용하도록 설정할 수 있습니다. 그런 다음 Private Link 서비스를 관리형 프라이빗 엔드포인트를 통해 Azure Synapse 관리형 가상 네트워크로 확장할 수 있습니다.
  • Azure Synapse의 Apache Spark는 클라우드에서 Microsoft가 구현한 여러 Apache Spark 중 하나입니다. Azure Synapse를 사용하면 Azure에서 Spark 기능을 쉽게 만들고 구성할 수 있습니다.
  • Data Lake Storage는 Azure에서 Azure Storage를 엔터프라이즈 데이터 레이크를 구축하기 위한 기반으로 만듭니다.
  • Key Vault를 사용하면 보안을 강화하여 비밀, 키 및 인증서를 저장할 수 있습니다.
  • Azure 랜딩 존은 규모, 보안, 거버넌스, 네트워킹 및 ID를 설명하는 다중 구독 Azure 환경의 출력입니다. 랜딩 존은 Azure에서 엔터프라이즈 규모의 마이그레이션, 현대화 및 혁신을 지원합니다.

시나리오 정보

이 문서에서는 Azure Synapse의 스케일링 가능하고 향상된 보안 배포를 위해 Azure 랜딩 존 구독을 준비하기 위한 접근 방식을 제공합니다. 이 솔루션은 Azure 모범 사례에 대한 클라우드 채택 프레임워크를 준수하며 엔터프라이즈급 랜딩 존에 대한 디자인 지침에 중점을 둡니다.

분산형 자율 사업부를 사용하는 많은 대규모 조직에서는 분석 및 데이터 과학 솔루션을 대규모로 채택하려고 합니다. 올바른 기반을 구축하는 것이 중요합니다. Azure Synapse 및 Data Lake Storage는 클라우드 스케일 분석 및 데이터 메시 아키텍처를 구현하기 위한 핵심 구성 요소입니다.

이 문서에서는 관리 그룹, 구독 토폴로지, 네트워킹, ID 및 보안에 Azure Synapse를 배포하기 위한 권장 사항을 제공합니다.

이 솔루션을 사용하면 다음 목표를 달성할 수 있습니다.

  • 여러 데이터 랜딩 존에서 요구 사항에 따라 스케일링되는 잘 관리되는 향상된 보안 분석 플랫폼.
  • 데이터 애플리케이션 팀의 운영 오버헤드 감소. 데이터 엔지니어링 및 분석에 집중하고 Azure Synapse 플랫폼 관리를 데이터 랜딩 존 운영 팀에 맡길 수 있습니다.
  • 데이터 랜딩 존 전반에 걸쳐 조직 규정 준수를 중앙 집중식으로 적용.

잠재적인 사용 사례

이 아키텍처는 다음이 필요한 조직에 유용합니다.

  • 처음부터 Azure Synapse 워크로드에 대한 완전히 통합된 운영 제어 및 데이터 평면.
  • 데이터 보안 및 개인 정보에 중점을 두고 Azure Synapse의 보안 강화 구현.

이 아키텍처는 데이터 랜딩 존 구독에서 Azure Synapse 워크로드를 대규모로 배포하기 위한 시작점 역할을 할 수 있습니다.

구독 토폴로지

대규모 데이터 및 분석 플랫폼을 빌드하는 조직은 시간이 지남에 따라 일관되고 효율적으로 작업을 스케일링하는 방법을 찾습니다.

  • 조직은 데이터 랜딩 존에 대해 구독을 스케일 단위로 사용하여, 구독 수준 제한을 극복하고, 적절한 격리 및 액세스 관리를 보장하고, 향후 데이터 플랫폼 공간을 유연하게 성장시킬 수 있습니다. 데이터 랜딩 존 내에서 리소스 그룹 내의 특정 분석 사용 사례에 대해 Azure Synapse 및 기타 데이터 자산을 그룹화할 수 있습니다.
  • 관리 그룹 및 구독 설정은 데이터 플랫폼 관리자에게 Azure Synapse 및 기타 서비스를 프로비저닝하는 데 필요한 액세스를 제공하는 랜딩 존 플랫폼 소유자의 책임입니다.
  • 모든 조직 전체 데이터 준수 정책은 관리 그룹 수준에서 적용되어 데이터 랜딩 존 전체에서 규정 준수를 적용합니다.

네트워킹 토폴로지

가상 WAN 네트워크 토폴로지(허브 스포크)를 사용하는 랜딩 존에 대한 권장 사항은 Virtual WAN 네트워크 토폴로지를 참조하세요. 이러한 권장 사항은 클라우드 채택 프레임워크 모범 사례와 일치합니다.

다음은 Azure Synapse 네트워킹 토폴로지의 몇 가지 권장 사항입니다.

  • 관리형 가상 네트워크를 통해 Azure Synapse 리소스에 대한 네트워크 격리를 구현합니다. 아웃바운드 액세스를 승인된 대상에 대해서만 제한하여 데이터 반출 보호를 구현합니다.

  • 다음으로 프라이빗 연결을 구성합니다.

    • 관리형 프라이빗 엔드포인트를 통해 Data Lake Storage, Key Vault 및 Azure SQL과 같은 Azure 서비스
    • 자체 호스팅 통합 런타임을 통해 ExpressRoute 상의 온-프레미스 데이터 저장소 및 애플리케이션. 자체 호스팅 통합 런타임을 사용할 수 없는 경우 사용자 지정 Private Link 서비스를 사용하여 Spark 리소스를 온-프레미스 데이터 저장소에 연결합니다.
    • 연결 구독에 배포된 프라이빗 링크 허브를 통해 Synapse Studio.
    • 연결 구독에 배포된 Azure Monitor Private Link 범위를 통해 Log Analytics 작업 영역.

ID 및 액세스 관리

엔터프라이즈는 일반적으로 운영 액세스를 위해 최소 권한 접근 방식을 사용합니다. 액세스 관리를 위해 Microsoft Entra ID, Azure RBAC(역할 기반 액세스 제어) 및 사용자 지정 역할 정의를 사용합니다.

  • Azure 역할, Azure Synapse 역할, SQL 역할 및 Git 권한을 사용하여 Azure Synapse에 세분화된 액세스 제어를 구현합니다. Azure Synapse 작업 영역 액세스 제어에 대한 자세한 내용은 이 개요를 참조하세요.
  • Azure Synapse 역할은 여러 범위에서 적용할 수 있는 권한 집합을 제공합니다. 이처럼 세밀한 적용이 가능하므로 관리자, 개발자, 보안 담당자 및 운영자에게 리소스와 데이터를 컴퓨팅하는 데 꼭 필요한 액세스 권한을 간편하게 부여할 수 있습니다.
  • 작업 역할에 맞는 보안 그룹을 사용하면 액세스 제어를 단순화할 수 있습니다. 액세스 관리를 위해 적절한 보안 그룹의 사용자를 추가하고 제거하기만 하면 됩니다.
  • 사용자가 할당한 관리형 ID를 사용하여 Azure Synapse와 Data Lake Storage 및 Key Vault와 같은 다른 Azure 서비스 간의 통신을 보안할 수 있습니다. 이렇게 하면 자격 증명을 관리할 필요가 없습니다. 관리형 ID는 애플리케이션이 Microsoft Entra 인증을 지원하는 Azure 리소스에 연결할 때 사용하는 ID를 제공합니다.

애플리케이션 자동화 및 DevOps

  • 한 환경(개발, 테스트, 프로덕션)에서 다른 환경으로 모든 엔터티의 Git 통합 및 승격을 통해 Azure Synapse 작업 영역에 대한 CI/CD(연속 통합 및 배달)를 달성합니다.
  • Bicep/Azure Resource Manager 템플릿으로 자동화를 구현하여 작업 영역 리소스(풀 및 작업 영역)를 만들거나 업데이트합니다. Azure Synapse Analytics 작업 영역에 대한 연속 통합 및 배달에서 설명한 대로, Azure DevOps 또는 GitHub에서 Synapse 작업 영역 배포 도구를 사용하여 SQL 스크립트 및 노트북, Spark 작업 정의, 파이프라인, 데이터 세트와 같은 아티팩트 및 다른 아티팩트를 마이그레이션합니다.

고려 사항

이러한 고려 사항은 워크로드의 품질 개선에 사용할 수 있는 일련의 기본 지침인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

안정성

안정성은 애플리케이션이 고객에 대한 약속을 충족할 수 있도록 합니다. 자세한 내용은 안정성 핵심 요소 개요를 참조하세요.

  • Azure Synapse, Data Lake Storage 및 Key Vault는 기본 제공 고가용성 및 복원력이 있는 관리형 PaaS(Platform as a Service) 서비스입니다. 중복 노드를 사용하여 아키텍처에서 자체 호스팅 통합 런타임 및 NAT VM의 가용성을 높일 수 있습니다.
  • SLA(서비스 수준 계약) 정보는 Azure Synapse Analytics용 SLA를 참조하세요.
  • Azure Synapse에 대한 비즈니스 연속성 및 재해 복구 권장 사항은 Azure Synapse Analytics의 데이터베이스 복원 지점을 참조하세요.

보안

우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

  • 분석 리소스는 CPU, 메모리 및 IO를 추적하는 DWU(데이터 웨어하우스 단위)로 측정됩니다. 작은 DWU로 시작하여 과중한 데이터 로드 또는 변환과 같은 리소스 집약적 작업의 성능을 측정하는 것이 좋습니다. 이러한 작업은 워크로드를 최적화하는 데 필요한 단위 수를 결정하는 데 도움이 될 수 있습니다.
  • 사전 구매한 Azure SCU(Synapse 커밋 단위)를 사용하면 종량제 가격으로 비용을 절감할 수 있습니다.
  • 가격 책정 옵션을 살펴보고 Azure Synapse 구현 비용을 예측하려면 Azure Synapse Analytics 가격 책정을 참조하세요.
  • 이 추정 가격은 다음 섹션에 설명된 자동화 단계를 사용하여 서비스를 배포하는 비용을 포함합니다.

시나리오 배포

필수 조건: Azure 계정이 있어야 합니다. Azure 구독이 아직 없는 경우 시작하기 전에 무료 계정을 만듭니다.

이 시나리오에 대한 모든 코드는 GitHub의 Synapse Enterprise Codebase 리포지토리에서 사용할 수 있습니다.

자동화된 배포는 Bicep 템플릿을 사용하여 다음 구성 요소를 배포합니다.

  • 리소스 그룹
  • 가상 네트워크 및 서브넷
  • 프라이빗 엔드포인트가 있는 스토리지 계층(Bronze, Silver 및 Gold)
  • 관리형 가상 네트워크가 있는 Azure Synapse 작업 영역
  • Private Link 서비스 및 엔드포인트
  • 부하 분산 장치 및 NAT VM
  • 자체 호스팅 통합 런타임 리소스

배포를 오케스트레이션하기 위한 PowerShell 스크립트는 리포지토리에서 사용할 수 있습니다. PowerShell 스크립트를 실행하거나 pipeline.yml 파일을 사용하여 Azure DevOps에서 파이프라인으로 배포할 수 있습니다.

Bicep 템플릿, 배포 단계 및 가정에 대한 자세한 내용은 추가 정보 파일을 참조하세요.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

주요 작성자:

기타 기여자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인하세요.

다음 단계

  • 엔드투엔드 데이터 및 분석 플랫폼을 만드는 방법에 대한 자세한 내용은 클라우드 스케일 분석 지침을 참조하세요.
  • 대규모의 복잡한 조직에서 엔터프라이즈 데이터 플랫폼을 구현하기 위한 아키텍처 패턴으로 데이터 메시로 살펴봅니다.
  • Azure Synapse 보안 백서를 참조하세요.

이 문서에 설명된 서비스에 대한 자세한 내용은 다음 리소스를 참조하세요.