Azure에서 클라우드 규모 분석을 사용하는 수집 프로세스
Azure는 데이터를 수집하고 네이티브 및 타사 플랫폼에 릴리스하는 여러 서비스를 제공합니다. 볼륨, 속도, 다양성 및 방향에 따라 다른 서비스를 사용할 수 있습니다. 이러한 서비스 중 일부는 다음과 같습니다.
- Azure Data Factory 모든 데이터 애플리케이션(원본 정렬) 요구 사항 및 기술 수준을 위해 빌드된 서비스입니다. 사용자 고유의 코드를 작성하거나, 코드를 사용하지 않고 직관적인 시각적 환경 내에서 프로세스를 생성, 추출, 로드 및 변환합니다. 기본적으로 빌드되고 유지 관리가 없는 커넥터가 90개 이상인 경우 추가 비용 없이 데이터 원본을 시각적으로 통합합니다. 엔지니어는 프라이빗 엔드포인트를 사용하고 서비스를 연결하여 PaaS 리소스의 퍼블릭 엔드포인트를 사용하지 않고도 Azure PaaS(Platform as a Service) 리소스에 안전하게 연결할 수 있습니다. 엔지니어는 통합 런타임을 사용하여 파이프라인을 온-프레미스 데이터 원본 및 기타 클라우드와 같은 타사 환경으로 확장할 수 있습니다.
이러한 커넥터 중 일부는 원본(읽기) 또는 싱크(쓰기)로 사용되는 것을 지원합니다. Azure 네이티브 서비스, Oracle, SAP 등은 원본 또는 싱크로 사용할 수 있지만 모든 커넥터에서 지원하는 것은 아닙니다. 이러한 경우 ODBC(Open Database Connectivity), 파일 시스템 또는 SFTP(SSH 파일 전송 프로토콜) 커넥터와 같은 일반 커넥터를 사용할 수 있습니다.
Azure Databricks
빠르고 쉽고 공동으로 Apache-Spark 기반 분석 서비스입니다. 빅 데이터 파이프라인의 경우, 데이터 팩토리를 통해 데이터(원시 또는 구조적)를 일괄 처리 방식으로 수집할 수 있으며, Apache Kafka, Azure Event Hubs 또는 IoT Hub를 사용하여 거의 실시간으로 스트리밍할 수 있습니다. 이 데이터는 Azure Data Lake Storage의 장기적이고 지속적인 스토리지를 위해 데이터 레이크에 배치됩니다. Azure Databricks는 워크플로의 일부로 여러 데이터 원본에서 데이터를 읽을 수 있습니다. Microsoft Power Platform은 이벤트, 일정 또는 푸시 구동이 될 수 있는 수백 개의 서비스에
커넥터를 제공합니다. Microsoft Power Automate는 단일 레코드 또는 작은 데이터 볼륨에 최적화된 이벤트 및 트리거 워크플로에 대해 작동할 수 있습니다.
독점 네이티브 및 타사 도구는 특수 시스템과 통합하고 거의 실시간 복제를 수행할 수 있는 틈새 기능을 제공합니다.
- Azure Data Share 조직에서 여러 외부 고객 및 파트너와 데이터를 안전하게 공유할 수 있도록 지원합니다. 데이터 공유 계정을 만들고 데이터 제품을 추가한 후에는 고객 및 파트너를 데이터 공유에 초대할 수 있습니다. 데이터 공급자는 항상 공유한 데이터를 제어합니다. Azure Data Share를 사용하면 공유되는 데이터, 공유된 데이터 및 공유한 데이터를 간편하게 관리하고 모니터링할 수 있습니다.
중요하다
모든 데이터 랜딩 존에는 데이터 유형에 구애받지 않는 수집 엔진을 가진 비즈니스를 위해 존재하는 데이터 수집 리소스 그룹이 있을 수 있습니다. 이 프레임워크 엔진이 없는 경우 데이터 통합에서 복잡한 수집을 실행하는 데 사용할 Azure Databricks 분석 작업 영역을 배포하는 것이 유일한 권장 리소스입니다. 잠재적인 자동화 패턴은 데이터 독립적 수집 엔진 참조하세요.
Azure Data Factory에 대한 수집 고려 사항
데이터 독립적 수집 엔진이 있는 경우 데이터 수집 리소스 그룹의 각 데이터 랜딩 존에 대해 단일 Data Factory를 배포해야 합니다. Data Factory 작업 영역은 사용자에게 잠겨 있어야 하며 관리 ID 및 서비스 주체만 배포에 액세스할 수 있습니다. 파이프라인 디버깅을 허용하려면 데이터 랜딩 존 작업에 읽기 권한이 있어야 합니다.
데이터 애플리케이션에는 데이터 이동을 위한 자체 Data Factory가 있을 수 있습니다. 각 데이터 애플리케이션 리소스 그룹에 Data Factory가 있으면 Azure DevOps 또는 GitHub에서 파이프라인만 배포할 수 있도록 하여 완전한 CI(연속 통합) 및 CD(지속적인 배포) 환경을 지원합니다.
모든 Data Factory 작업 영역은 데이터 관리 랜딩 존 내의 데이터 랜딩 존에 대해 주로 Data Factory의 관리형 VNet(가상 네트워크) 기능을 사용하거나 자체 호스팅 통합 런타임을 사용할 것입니다. 엔지니어는 관리되는 VNet 기능을 사용하여 Azure PaaS 리소스에 안전하게 연결하는 것이 좋습니다.
그러나 온-프레미스, 타사 클라우드 및 타사 SaaS(Software-as-a-Service) 데이터 원본에서 수집하는 더 많은 통합 런타임을 만들 수 있습니다.
Azure Databricks에 대한 데이터 수집 고려 사항
이 지침은 다음 내의 정보를 자세히 설명합니다.
Azure Databricks 모범 사례
개발을 위해 통합 작업에는 테스트 및 프로덕션 중에 단일 Azure Databricks 작업 영역에 배포할 코드를 체크 인하기 전에 고유한 Azure Databricks 환경이 있어야 합니다.
데이터 애플리케이션(원본 정렬) 리소스 그룹의 Data Factory는 Azure Databricks 작업을 호출하기 위한 프레임워크를 제공해야 합니다.
데이터 애플리케이션 팀은 Azure Databricks에 짧고 자동화된 작업을 배포할 수 있으며 클러스터가 신속하게 시작되고, 작업을 실행하고, 종료될 것으로 예상할 수 있습니다. 클러스터가 작업을 실행하는 데 걸리는 시간을 줄이기 위해 Azure Databricks 풀을 설정하는 것이 좋습니다.
조직에서는 Azure DevOps를 사용하여 새 파이프라인에 대한 배포 프레임워크를 구현하는 것이 좋습니다. 프레임워크는 데이터 세트 폴더를 만들고, 액세스 제어 목록을 할당하고, Databricks 테이블 액세스 제어를 적용하거나 적용하지 않고 테이블을 만드는 데 사용됩니다.
스트림 수집 및 처리
조직은 게시자가 고속 이벤트 스트림을 생성하는 시나리오를 지원해야 할 수 있습니다. 이 패턴의 경우 이러한 스트림을 수집하려면 메시지 큐(예: Event Hubs 또는 IoT Hub)를 사용하는 것이 좋습니다.
Event Hubs 및 IoT Hub는 대기 시간이 짧고 안정성이 높은 대규모 이벤트 볼륨 및 데이터를 수집하고 처리할 수 있는 확장 가능한 이벤트 처리 서비스입니다. Event Hubs는 빅 데이터 스트리밍 및 이벤트 수집 서비스로 설계되었습니다. IoT Hub는 IoT 애플리케이션과 관리하는 디바이스 간의 양방향 통신을 위한 중앙 메시지 허브 역할을 하는 관리되는 서비스입니다. 데이터는 여기에서 정기적인 간격으로 데이터 레이크로 내보내져 일괄 처리되거나, Apache Spark 스트리밍, Azure Data Explorer, Stream Analytics 또는 Time Series Insights를 통해 거의 실시간에 가깝게 Azure Databricks로 처리될 수 있습니다.
사용 사례의 특정 랜딩 존 내의 마지막 Event Hubs 또는 Apache Kafka 랜딩 존은 데이터 랜딩 존 중 하나의 데이터 레이크 원시 계층 및 데이터 랜딩 존의 데이터 애플리케이션(원본 정렬) 리소스 그룹과 관련된 Event Hubs에 집계된 데이터를 보내야 합니다.
데이터 수집 모니터링
기본 제공된 Azure Data Factory 파이프라인 모니터링 기능을 사용하여 Data Factory 파이프라인의 예외를 모니터링하고 문제를 해결할 수 있습니다. 사용자 지정 모니터링 및 보고 솔루션을 개발하는 노력을 줄입니다.
기본 제공 모니터링은 기본 오케스트레이션 도구로 Azure Data Factory를 사용하는 주된 이유 중 하나이며, Azure Policy는 이 설정을 자동화하는 데 도움이 될 수 있습니다.
다음 단계
Azure 클라우드 규모 분석을 사용하여 SAP 수집