데이터 통합 패턴 설명

완료됨

Microsoft Azure는 다양한 유형의 분석을 수행할 수 있는 다양한 데이터 플랫폼 서비스를 제공합니다. 데이터 웨어하우스에서의 설명적 분석 솔루션이 될 수도 있고 HDInsight, Azure Databricks 또는 Machine Learning Services 내에서의 예측 분석이 될 수도 있습니다. 서비스는 데이터 통합의 중요한 측면을 처리해야 합니다.

데이터 통합에는 먼저 하나 이상의 원본에서 온 데이터의 컬렉션이 포함됩니다. 필요에 따라, 일반적으로 데이터를 정리 및 변환하는 프로세스 또는 추가 데이터로 확대하고 준비하는 프로세스가 포함됩니다. 마지막으로, 통합된 데이터는 수행하려는 분석 유형을 처리하는 데이터 플랫폼 서비스에 저장됩니다. Azure Data Factory는 ETL(추출, 변환, 로드)이라는 패턴으로 이 프로세스를 자동화할 수 있습니다.

추출

추출 프로세스 중에 데이터 엔지니어는 데이터와 해당 원본을 정의합니다.

  • 데이터 원본 정의 리소스 그룹, 구독 및 키 또는 비밀과 같은 ID 정보 등의 원본 정보를 식별합니다.

  • 데이터 정의: 추출할 데이터를 식별합니다. 데이터베이스 쿼리, 파일 세트 또는 Blob 스토리지의 Azure Blob Storage 이름을 사용하여 데이터를 정의합니다.

변환

  • 데이터 변환 정의: 데이터 변환 작업에는 열의 분할, 결합, 파생, 추가, 제거 또는 피벗이 포함될 수 있습니다. 데이터 원본과 데이터 대상 사이에 필드를 매핑합니다. 데이터를 집계하거나 병합해야 할 수도 있습니다.

로드

  • 대상 정의: 로드 중에 여러 Azure의 대상이 JSON(JavaScript Object Notation), 파일 또는 Blob 형식의 데이터를 수락할 수 있습니다. 애플리케이션 API와 상호작용하는 코드를 작성해야 할 수도 있습니다.

    Azure Data Factory는 Azure Functions를 기본적으로 지원합니다. 또한 Node.js, .NET, Python 및 Java를 포함한 여러 프로그래밍 언어도 지원합니다. 과거에는 XML(Extensible Markup Language)이 일반적이었지만 이제는 대부분 시스템이 반정형 데이터 형식으로 유연하게 사용 가능한 JSON으로 마이그레이션되었습니다.

  • 작업 시작: 개발 또는 테스트 환경에서 ETL 작업을 테스트합니다. 그런 다음, 프로덕션 시스템으로 작업을 마이그레이션하여 프로덕션 시스템을 로드합니다.

  • 작업 모니터링: ETL 작업에는 여러 복잡한 프로세스가 포함될 수 있습니다. 문제가 발생할 경우 정보를 제공하도록 사전 및 사후 모니터링 시스템을 설정합니다. 로깅을 사용할 기술에 따라서 설정합니다.

ETL 도구

데이터 엔지니어로서 ETL에 사용할 수 있는 몇 가지 도구가 있습니다. Azure Data Factory는 코드 없는 사용자와 코드 기반 사용자 모두가 데이터 이동 및 변환 요구 사항을 구현할 수 있도록 거의 100개의 엔터프라이즈 커넥터와 강력한 리소스를 제공합니다.

ETL에서 진화

Azure는 무제한으로 비정형 데이터를 처리할 수 있는 기술이 등장할 수 있게 길을 열어 주었습니다. 이러한 변화로 인해 데이터를 로드하고 변환하는 패러다임이 ETL에서 ELT(추출, 변환 및 로드)로 바뀌었습니다.

ELT의 장점은 JSON, XML, PDF 또는 이미지 등 원래 형식으로 데이터를 저장할 수 있다는 점입니다. ELT의 변환 단계에서는 원본 데이터를 여러 다운스트림 시스템에서 사용할 수 있도록 데이터의 구조를 정의합니다.

ELT 프로세스에서는 데이터가 원시 형식으로 추출되고 로드됩니다. 이러한 변화로 인해 대상 시스템에 데이터를 로드하는 데 필요한 시간이 단축됩니다. 또한 데이터 원본의 리소스 경합도 제한됩니다.

ELT 프로세스의 단계는 ETL 프로세스와 동일합니다. 순서만 다를 뿐입니다.

ELT 같은 다른 프로세스를 ELTL(추출, 로드, 변환 및 로드)라고 합니다. ELTL과 다른 점은 대상 시스템에 마지막으로 로드한 항목이 있다는 점입니다.

Azure Data Factory에서 지원할 수 있는 두 가지 일반적인 유형의 데이터 통합 패턴이 있습니다.

최신 데이터 웨어하우스 작업:

최신 데이터 웨어하우스는 정형, 비정형 또는 스트리밍 데이터 원본을 사용하여 기업 전체에 설명적 분석 및 의사 결정 지원 서비스를 제공하는 중앙 집중식 데이터 저장소입니다. 데이터는 정기적으로 여러 트랜잭션 시스템, 관계형 데이터베이스 및 기타 데이터 원본에서 웨어하우스로 이동합니다. 저장된 데이터는 기록 및 추세 분석에 사용됩니다. 데이터 웨어하우스는 많은 주제 영역에 대한 중앙 리포지토리의 역할을 하며 "단일 데이터 원본"을 포함합니다.

일반적으로 Azure Data Factory는 정형 데이터 원본과 비정형 데이터 원본에 대해 일괄 처리 프로세스를 통해 데이터를 추출, 변환, 로드하는 프로세스를 자동화하는 데 사용됩니다.

고급 분석 작업

다양한 Azure 데이터 플랫폼 서비스를 사용하여 예측 또는 선점형 분석의 형태로 고급 분석을 수행할 수 있습니다. Azure Data Factory는 원본 시스템에서 Data Lake Store로의 통합을 제공하고, Azure Databricks 또는 HDInsight와 같은 컴퓨팅 리소스를 시작하여 데이터로 고급 분석 작업을 수행할 수 있습니다.