이 문서에서 설명하는 솔루션은 다양한 원본(정형, 반정형, 비정형 및 스트리밍)의 데이터 및 인사이트를 수집, 저장, 처리, 보강 및 제공하는 다양한 Azure 서비스를 결합합니다.
아키텍처
이 아키텍처의 Visio 파일을 다운로드합니다.
참고
- 이 아키텍처에서 다루는 서비스는 훨씬 더 큰 Azure 서비스 제품군의 하위 집합일 뿐입니다. 이 설계에서 다루지 않는 다른 서비스나 기능을 사용하여 유사한 결과를 얻을 수 있습니다.
- 분석 사용 사례에 대한 특정 비즈니스 요구 사항의 경우 이 설계에서 고려되지 않은 다른 서비스 또는 기능을 사용해야 할 수 있습니다.
데이터 흐름
아키텍처에서 다루는 분석 사용 사례는 다이어그램 왼쪽의 다양한 데이터 원본으로 설명됩니다. 데이터는 다음과 같이 아래에서 위로 솔루션을 통해 흐릅니다.
참고
다음 섹션에서는 Azure Data Lake가 데이터 수명 주기의 다양한 단계에서 데이터의 홈으로 사용됩니다. Azure Data Lake는 다음과 같이 다양한 레이어 및 컨테이너로 구성됩니다.
- 원시 레이어는 원본 시스템에서 들어오는 데이터의 랜딩 영역입니다. 이름에서 알 수 있듯이 이 레이어의 데이터는 원시, 필터링되지 않은, 정화되지 않은 양식입니다.
- 수명 주기의 다음 단계에서 데이터는 데이터를 정리, 필터링, 변환할 수 있는 보강 레이어로 이동합니다.
- 그런 다음, 데이터는 소비자가 사용할 수 있는 데이터가 유지 관리되는 큐레이팅된 레이어로 이동합니다.
Azure Data Lake 레이어와 컨테이너 및 해당 용도를 모두 검토하려면 Data Lake 영역 및 컨테이너 설명서를 참조하세요.
Azure 데이터 서비스, Azure Cosmos DB, Dataverse를 사용한 클라우드 네이티브 HTAP
프로세스
Azure Cosmos DB용 Azure Synapse Link 및 Dataverse용 Azure Synapse Link를 사용하면 Azure Synapse 작업 영역인 SQL Serverless 및 Spark 풀에서 사용할 수 있는 분석 엔진을 사용하여 운영 및 비즈니스 애플리케이션 데이터에 대해 근 실시간 분석을 실행할 수 있습니다.
Azure Cosmos DB용 Azure Synapse Link를 사용하는 경우 SQL Serverless 쿼리 또는 Spark 풀 Notebook을 사용합니다. Azure Cosmos DB 분석 저장소에 액세스한 다음 근 실시간 작동 데이터의 데이터 세트를 데이터 레이크 또는 데이터 웨어하우스의 데이터와 결합할 수 있습니다.
Dataverse용 Azure Synapse Link를 사용하는 경우 SQL Serverless 쿼리 또는 Spark 풀 Notebook을 사용합니다. 선택한 Dataverse 테이블에 액세스한 다음 근 실시간 비즈니스 애플리케이션 데이터의 데이터 세트를 데이터 레이크 또는 데이터 웨어하우스의 데이터와 결합할 수 있습니다.
스토어
- SQL Serverless 쿼리의 결과 데이터 세트는 데이터 레이크에 유지할 수 있습니다. Spark Notebook을 사용하는 경우 결과 데이터 세트는 데이터 레이크 또는 데이터 웨어하우스(SQL 풀)에 유지할 수 있습니다.
제공
데이터 시각화 및 탐색을 위해 Azure Synapse SQL 풀 또는 데이터 레이크에서 Power BI 데이터 세트로 관련 데이터를 로드합니다. Power BI 모델은 의미 체계 모델을 구현하여 비즈니스 데이터 및 관계 분석을 간소화합니다. 비즈니스 분석가는 Power BI 보고서 및 대시보드를 사용하여 데이터를 분석하고 비즈니스 인사이트를 얻습니다.
또한 Azure Data Share를 사용하여 데이터를 다른 사업부나 신뢰할 수 있는 외부 파트너와 안전하게 공유할 수 있습니다. 데이터 소비자는 사용하려는 데이터 서식과 공유 데이터 세트를 처리하는 데 가장 적합한 컴퓨팅 엔진을 자유롭게 선택할 수 있습니다.
Synapse 작업 영역에 저장된 정형 및 비정형 데이터를 사용하여 지식 마이닝 솔루션을 구축하고 AI를 사용하여 Office 문서, PDF, 이미지, 오디오, 양식 및 웹 페이지를 비롯한 다양한 문서 유형 및 형식에서 중요한 비즈니스 인사이트를 파악할 수 있습니다.
관계형 데이터베이스
수집
- Azure Synapse 파이프라인을 사용하여 온-프레미스 및 클라우드의 다양한 데이터베이스에서 데이터를 가져옵니다. 파이프라인은 이벤트에 대한 응답으로 미리 정의된 일정에 따라 트리거하거나 REST API를 통해 명시적으로 호출할 수 있습니다.
스토어
원시 데이터 레이크 레이어 내에서 생성할 레이어, 각 레이어에서 사용할 폴더 구조, 각 분석 시나리오에 사용할 파일 형식에 대한 모범 사례에 따라 데이터 레이크를 구성합니다.
Azure Synapse 파이프라인에서 데이터 복사 작업을 사용하여 관계형 데이터베이스에서 복사한 데이터를 Azure Data Lake Store Gen 2 데이터 레이크의 원시 레이어로 스테이징합니다. 데이터를 구분된 텍스트 형식으로 저장하거나 Parquet 파일로 압축할 수 있습니다.
프로세스
데이터 흐름, SQL 서버리스 쿼리 또는 Spark Notebook을 사용하여 데이터 세트의 유효성을 검사 및 변환한 다음, 원시 레이어에서 보강된 레이어를 거쳐 데이터 레이크의 큐레이팅된 레이어로 이동합니다.
- 데이터 변환의 일환으로 표준 T-SQL 또는 Spark Notebook을 사용하여 SQL 풀에서 기계 학습 모델을 호출할 수 있습니다. 이러한 ML 모델을 사용하여 데이터 세트를 보강하고 추가 비즈니스 인사이트를 생성할 수 있습니다. 이러한 기계 학습 모델은 Azure Cognitive Services 또는 Azure ML의 사용자 지정 ML 모델에서 사용할 수 있습니다.
제공
데이터 레이크 큐레이팅된 레이어에서 직접 최종 데이터 세트를 제공하거나 데이터 복사 작업을 사용하여 빠른 수집을 위해 COPY 명령을 사용하여 최종 데이터 세트를 SQL 풀 테이블로 수집할 수 있습니다.
데이터 시각화를 위해 Azure Synapse SQL 풀 또는 데이터 레이크에서 Power BI 데이터 세트로 관련 데이터를 로드합니다. Power BI 모델은 의미 체계 모델을 구현하여 비즈니스 데이터 및 관계 분석을 간소화합니다. 비즈니스 분석가는 Power BI 보고서 및 대시보드를 사용하여 데이터를 분석하고 비즈니스 인사이트를 얻습니다.
또한 Azure Data Share를 사용하여 데이터를 다른 사업부나 신뢰할 수 있는 외부 파트너와 안전하게 공유할 수 있습니다. 데이터 소비자는 사용하려는 데이터 서식과 공유 데이터 세트를 처리하는 데 가장 적합한 컴퓨팅 엔진을 자유롭게 선택할 수 있습니다.
Synapse 작업 영역에 저장된 정형 및 비정형 데이터를 사용하여 지식 마이닝 솔루션을 구축하고 AI를 사용하여 Office 문서, PDF, 이미지, 오디오, 양식 및 웹 페이지를 비롯한 다양한 문서 유형 및 형식에서 중요한 비즈니스 인사이트를 파악할 수 있습니다.
반정형 데이터 원본
수집
Azure Synapse 파이프라인을 사용하여 온-프레미스 및 클라우드의 다양한 반정형 데이터 원본에서 데이터를 가져옵니다. 예를 들면 다음과 같습니다.
- CSV 또는 JSON 파일이 포함된 파일 기반 원본에서 데이터를 수집합니다.
- Azure Cosmos DB 또는 MongoDB와 같은 SQL이 아닌 데이터베이스에 연결합니다.
- 파이프라인에 대한 데이터 원본으로 작동할 SaaS 애플리케이션에서 제공하는 REST API를 호출합니다.
스토어
원시 데이터 레이크 레이어 내에서 생성할 레이어, 각 레이어에서 사용할 폴더 구조, 각 분석 시나리오에 사용할 파일 형식에 대한 모범 사례에 따라 데이터 레이크를 구성합니다.
Azure Synapse 파이프라인에서 데이터 복사 작업을 사용하여 반정형 데이터 원본에서 복사한 데이터를 Azure Data Lake Store Gen 2 데이터 레이크의 원시 레이어로 스테이징합니다. 데이터 원본에서 가져온 대로 원래 형식을 유지하여 데이터를 저장합니다.
프로세스
일괄 처리/마이크로 일괄 처리 파이프라인의 경우 데이터 흐름, SQL 서버리스 쿼리 또는 Spark Notebook을 사용하여 데이터 세트의 유효성을 검사 및 변환한 다음, 데이터 레이크의 큐레이팅된 레이어로 이동합니다. SQL Serverless 쿼리는 기본 CSV, Parquet 또는 JSON 파일을 외부 테이블로 노출하므로 T-SQL을 사용하여 쿼리할 수 있습니다.
- 데이터 변환의 일부로 표준 T-SQL을 사용하는 SQL 풀 또는 Spark Notebook에서 기계 학습 모델을 호출할 수 있습니다. 이러한 ML 모델을 사용하여 데이터 세트를 보강하고 추가 비즈니스 인사이트를 생성할 수 있습니다. 이러한 기계 학습 모델은 Azure Cognitive Services 또는 Azure ML의 사용자 지정 ML 모델에서 사용할 수 있습니다.
근 실시간 원격 분석 및 시계열 분석 시나리오의 경우 Data Explorer 풀을 사용하여 여러 데이터 원본에서 로그 및 IoT 이벤트 데이터를 쉽게 수집, 통합 및 상호 연결합니다. Data Explorer 풀을 사용하면 KQL(Kusto 쿼리)을 사용하여 시계열 분석, 지리 공간적 클러스터링 및 기계 학습 보강을 수행할 수 있습니다.
제공
데이터 레이크 큐레이팅된 레이어에서 직접 최종 데이터 세트를 제공하거나 데이터 복사 작업을 사용하여 빠른 수집을 위해 COPY 명령을 사용하여 최종 데이터 세트를 SQL 풀 테이블로 수집할 수 있습니다.
데이터 시각화를 위해 Azure Synapse SQL 풀, Data Explorer 풀 또는 데이터 레이크에서 Power BI 데이터 세트로 관련 데이터를 로드합니다. Power BI 모델은 의미 체계 모델을 구현하여 비즈니스 데이터 및 관계 분석을 간소화합니다. 비즈니스 분석가는 Power BI 보고서 및 대시보드를 사용하여 데이터를 분석하고 비즈니스 인사이트를 얻습니다.
또한 Azure Data Share를 사용하여 데이터를 다른 사업부나 신뢰할 수 있는 외부 파트너와 안전하게 공유할 수 있습니다. 데이터 소비자는 사용하려는 데이터 서식과 공유 데이터 세트를 처리하는 데 가장 적합한 컴퓨팅 엔진을 자유롭게 선택할 수 있습니다.
Synapse 작업 영역에 저장된 정형 및 비정형 데이터를 사용하여 지식 마이닝 솔루션을 구축하고 AI를 사용하여 Office 문서, PDF, 이미지, 오디오, 양식 및 웹 페이지를 비롯한 다양한 문서 유형 및 형식에서 중요한 비즈니스 인사이트를 파악할 수 있습니다.
비정형 데이터 원본
수집
Azure Synapse 파이프라인을 사용하여 온-프레미스 및 클라우드의 다양한 비정형 데이터 원본에서 데이터를 가져옵니다. 예를 들면 다음과 같습니다.
- 원본 파일이 포함된 파일 기반 원본에서 동영상, 이미지, 오디오 또는 자유 텍스트를 수집합니다.
- 파이프라인에 대한 데이터 원본으로 작동할 SaaS 애플리케이션에서 제공하는 REST API를 호출합니다.
스토어
원시 데이터 레이크 레이어 내에서 생성할 레이어, 각 레이어에서 사용할 폴더 구조, 각 분석 시나리오에 사용할 파일 형식에 대한 모범 사례에 따라 데이터 레이크를 구성합니다.
Azure Synapse 파이프라인에서 데이터 복사 작업을 사용하여 비정형 데이터 원본에서 복사한 데이터를 Azure Data Lake Store Gen 2 데이터 레이크의 원시 레이어로 스테이징합니다. 데이터 원본에서 가져온 대로 원래 형식을 유지하여 데이터를 저장합니다.
프로세스
Spark Notebook을 사용하여 데이터 세트의 유효성을 검사 및 변환한 다음, 원시 레이어에서 보강된 레이어를 거쳐 데이터 레이크의 큐레이팅된 레이어로 이동합니다.
- 데이터 변환의 일부로 표준 T-SQL을 사용하는 SQL 풀 또는 Spark Notebook에서 기계 학습 모델을 호출할 수 있습니다. 이러한 ML 모델을 사용하여 데이터 세트를 보강하고 추가 비즈니스 인사이트를 생성할 수 있습니다. 이러한 기계 학습 모델은 Azure Cognitive Services 또는 Azure ML의 사용자 지정 ML 모델에서 사용할 수 있습니다.
제공
데이터 레이크 큐레이팅된 레이어에서 직접 최종 데이터 세트를 제공하거나 데이터 복사 작업을 사용하여 빠른 수집을 위해 COPY 명령을 사용하여 최종 데이터 세트를 데이터 웨어하우스 테이블로 수집할 수 있습니다.
데이터 시각화를 위해 Azure Synapse SQL 풀 또는 데이터 레이크에서 Power BI 데이터 세트로 관련 데이터를 로드합니다. Power BI 모델은 의미 체계 모델을 구현하여 비즈니스 데이터 및 관계 분석을 간소화합니다.
비즈니스 분석가는 Power BI 보고서 및 대시보드를 사용하여 데이터를 분석하고 비즈니스 인사이트를 얻습니다.
또한 Azure Data Share를 사용하여 데이터를 다른 사업부나 신뢰할 수 있는 외부 파트너와 안전하게 공유할 수 있습니다. 데이터 소비자는 사용하려는 데이터 서식과 공유 데이터 세트를 처리하는 데 가장 적합한 컴퓨팅 엔진을 자유롭게 선택할 수 있습니다.
Synapse 작업 영역에 저장된 정형 및 비정형 데이터를 사용하여 지식 마이닝 솔루션을 구축하고 AI를 사용하여 Office 문서, PDF, 이미지, 오디오, 양식 및 웹 페이지를 비롯한 다양한 문서 유형 및 형식에서 중요한 비즈니스 인사이트를 파악할 수 있습니다.
스트리밍
수집
- Azure Event Hubs 또는 Azure IoT Hub를 사용하여 클라이언트 애플리케이션 또는 IoT 디바이스에서 생성된 데이터 스트림을 수집합니다. 그러면 Event Hubs 또는 IoT Hub가 수신된 이벤트 시퀀스를 보존하는 스트리밍 데이터를 수집하고 저장합니다. 그런 다음 소비자는 Event Hubs 또는 IoT Hub 엔드포인트에 연결하고 처리를 위해 메시지를 검색할 수 있습니다.
스토어
원시 데이터 레이크 레이어 내에서 생성할 레이어, 각 레이어에서 사용할 폴더 구조, 각 분석 시나리오에 사용할 파일 형식에 대한 모범 사례에 따라 데이터 레이크를 구성합니다.
Event Hubs 캡처 또는 IoT Hub Storage 엔드포인트를 구성하여 Azure Data Lake Store Gen 2 데이터 레이크의 원시 레이어에 이벤트 복사본을 저장합니다. 이 기능은 Lambda 아키텍처 패턴의 "콜드 경로"를 구현하고 위에서 설명한 반정형 데이터 원본의 패턴에 따라 SQL Serverless 쿼리 또는 Spark Notebook을 사용하여 데이터 레이크에 저장된 스트림 데이터에 대한 기록 및 추세 분석을 수행할 수 있습니다.
프로세스
실시간 인사이트를 가져오려면 Stream Analytics 작업을 사용하여 Lambda 아키텍처 패턴의 "핫 경로"를 구현하고 전송 중인 스트림 데이터에서 인사이트를 얻습니다. Event Hubs 또는 IoT Hub에서 들어오는 데이터 스트림에 대해 하나 이상의 입력을 정의하고, 입력 데이터 스트림을 처리하는 쿼리 하나와 쿼리 결과를 보낼 위치에 대한 Power BI 출력을 정의합니다.
- Stream Analytics를 사용한 데이터 처리의 일부로 기계 학습 모델을 호출하여 스트림 데이터 세트를 보강하고 생성된 예측을 기반으로 비즈니스 의사 결정을 내릴 수 있습니다. 이러한 기계 학습 모델은 Azure AI 서비스 또는 Azure Machine Learning
사용자 지정 ML 모델에서 사용할 수 있습니다.
- Stream Analytics를 사용한 데이터 처리의 일부로 기계 학습 모델을 호출하여 스트림 데이터 세트를 보강하고 생성된 예측을 기반으로 비즈니스 의사 결정을 내릴 수 있습니다. 이러한 기계 학습 모델은 Azure AI 서비스 또는 Azure Machine Learning
다른 Stream Analytics 작업 출력을 사용하여 추가 분석 사용 사례를 위해 처리된 이벤트를 Azure Synapse SQL 풀 또는 Data Explorer 풀로 보냅니다.
근 실시간 원격 분석 및 시계열 분석 시나리오의 경우 Data Explorer 풀을 사용하여 Event Hubs 또는 IoT Hub에서 직접 IoT 이벤트를 쉽게 수집합니다. Data Explorer 풀을 사용하면 KQL(Kusto 쿼리)을 사용하여 시계열 분석, 지리 공간적 클러스터링 및 기계 학습 보강을 수행할 수 있습니다.
제공
그런 다음 비즈니스 분석가는 Power BI 실시간 데이터 세트 및 대시보드 기능을 사용하여 Stream Analytics 쿼리에서 생성된 빠르게 변화하는 인사이트를 시각화합니다.
또한 Azure Data Share를 사용하여 데이터를 다른 사업부나 신뢰할 수 있는 외부 파트너와 안전하게 공유할 수 있습니다. 데이터 소비자는 사용하려는 데이터 서식과 공유 데이터 세트를 처리하는 데 가장 적합한 컴퓨팅 엔진을 자유롭게 선택할 수 있습니다.
Synapse 작업 영역에 저장된 정형 및 비정형 데이터를 사용하여 지식 마이닝 솔루션을 구축하고 AI를 사용하여 Office 문서, PDF, 이미지, 오디오, 양식 및 웹 페이지를 비롯한 다양한 문서 유형 및 형식에서 중요한 비즈니스 인사이트를 파악할 수 있습니다.
구성 요소
아키텍처에서 사용된 Azure 서비스는 다음과 같습니다.
- Azure Synapse Analytics
- Azure Data Lake Gen2
- Azure Cosmos DB
- Azure AI 서비스
- Azure Machine Learning
- Azure Event Hubs
- Azure IoT Hub
- Azure Stream Analytics
- Microsoft Purview
- Azure Data Share
- Microsoft Power BI
- Microsoft Entra ID
- Microsoft Cost Management
- Azure Key Vault
- Azure Monitor
- Microsoft Defender for Cloud
- Azure DevOps
- Azure Policy
- GitHub
대안
위의 아키텍처에서 Azure Synapse 파이프라인은 데이터 파이프라인 오케스트레이션을 담당합니다. Azure Data Factory 파이프라인도 이 문서에 설명된 것과 동일한 기능을 제공합니다.
Azure Databricks는 데이터 레이크에서 직접 정형 및 비정형 데이터를 처리하는 데 사용되는 컴퓨팅 엔진으로 사용할 수도 있습니다.
위의 아키텍처에서 Azure Stream Analytics는 스트리밍 데이터 처리를 담당하는 서비스입니다. Azure Synapse Spark 풀 및 Azure Databricks를 사용하여 Notebook 실행을 통해 동일한 역할을 수행할 수도 있습니다.
Azure HDInsight Kafka 클러스터를 사용하여 스트리밍 데이터를 수집하고 대규모 스트리밍 워크로드에 필요한 적절한 수준의 성능과 확장성을 제공할 수도 있습니다.
Azure Functions
사용하여 Azure Synapse 파이프라인에서 Azure AI 서비스 또는 Azure Machine Learning 사용자 지정 ML 모델을 호출할 수도 있습니다. 다른 대안을 비교하면 다음 항목을 참조하세요.
시나리오 정보
이 예제 시나리오에서는 Azure Data Services의 광범위한 제품군과 함께 Azure Synapse Analytics를 사용하여 조직에서 가장 일반적인 데이터 문제를 처리할 수 있는 최신 데이터 플랫폼을 구축하는 방법을 보여 줍니다.
잠재적인 사용 사례
다음의 경우 이 방법을 사용할 수도 있습니다.
- 정형 데이터용 데이터 웨어하우스와 반정형 및 비정형 데이터용 데이터 레이크로 구성된 데이터 제품 아키텍처를 설정합니다. 중앙 집중식 환경에 대해 단일 데이터 제품을 배포하거나 Data Mesh와 같은 분산 환경에 대해 여러 데이터 제품을 배포하도록 선택할 수 있습니다. 데이터 관리 및 데이터 랜딩 존에 대한 자세한 내용을 참조하세요.
- 빅 데이터 처리 기술을 사용하여 관계형 데이터 원본을 구조화되지 않은 다른 데이터 세트와 통합합니다.
- 의미 체계 모델링 및 강력한 시각화 도구를 사용하여 간단하게 데이터를 분석합니다.
- 조직 내에서 또는 신뢰할 수 있는 외부 파트너와 데이터 세트를 공유합니다.
- 지식 마이닝 솔루션을 구현하여 이미지, PDF, 문서 등에 숨겨진 중요한 비즈니스 정보를 추출합니다.
권장 사항
검색 및 관리
데이터 거버넌스는 대기업 환경에서 일반적인 과제입니다. 한편, 비즈니스 분석가는 비즈니스 문제를 해결하는 데 도움이 될 수 있는 데이터 자산을 검색하고 이해할 수 있어야 합니다. 반면, 최고 데이터 책임자는 비즈니스 데이터의 개인 정보 및 보안에 대한 인사이트를 원합니다.
Microsoft Purview
데이터 자산, 데이터 분류 및 민감도에 대한 인사이트 및 데이터 검색을 위해 전체 조직 데이터 환경을 다루는 Microsoft Purview를 사용합니다.
Microsoft Purview는 사용자가 데이터 세트의 의미와 조직 전체에서 사용되는 방식을 이해하는 데 필요한 특정 비즈니스 용어를 사용하여 비즈니스 용어집을 유지 관리하는 데 도움이 될 수 있습니다.
모든 데이터 원본을 등록하고 컬렉션으로 구성하여 메타데이터의 보안 경계 역할을 할 수도 있습니다.
조직의 데이터 자산에 대한 관련 메타데이터를 자동으로 분류하고 업데이트하도록 정기 검사를 설정합니다. Microsoft Purview는 Azure Data Factory 또는 Azure Synapse 파이프라인의 정보를 기반으로 데이터 계보 정보를 자동으로 추가할 수도 있습니다.
데이터 분류 및 데이터 민감도 레이블은 사전 구성된 규칙 또는 정기 검사 중에 적용된 사용자 지정 규칙을 기반으로 데이터 자산에 자동으로 추가될 수 있습니다.
데이터 거버넌스 전문가는 Microsoft Purview에서 생성된 보고서 및 인사이트를 사용하여 전체 데이터 환경을 계속 제어하고 보안 및 개인 정보 문제로부터 조직을 보호할 수 있습니다.
플랫폼 서비스
Azure 솔루션의 품질을 향상시키려면 Azure Well-Architected Framework에 정의된 권장 사항 및 지침에 따라 아키텍처 우수성의 5가지 핵심 요소인 비용 최적화, 운영 우수성, 성능 효율성, 안정성 및 보안을 준수합니다.
이러한 권장 사항에 따라 아래 서비스를 설계의 일부로 고려해야 합니다.
- Microsoft Entra ID: Azure 워크로드에서 ID 서비스, Single Sign-On 및 다단계 인증.
- Microsoft Cost Management: Azure 워크로드에 대한 재무 거버넌스.
- Azure Key Vault: 보안 자격 증명 및 인증서 관리. 예를 들어 Azure Synapse 파이프라인, Azure Synapse Spark 풀 및 Azure ML은 Azure Key Vault에서 데이터 저장소에 안전하게 액세스하는 데 사용되는 자격 증명 및 인증서를 검색할 수 있습니다.
- Azure Monitor: Azure 리소스의 원격 분석 정보를 수집, 분석 및 조치하여 문제를 적극적으로 식별하고 성능과 안정성을 최대화합니다.
- 클라우드용 Microsoft Defender: Azure 워크로드의 보안 태세를 강화하고 모니터링합니다.
- Azure DevOps 및 GitHub: DevOps 사례를 구현하여 Azure Synapse 및 Azure ML에 대한 워크로드 개발 및 배포 파이프라인에 자동화 및 규정 준수를 적용합니다.
- Azure Policy: 리소스 일관성, 규정 준수, 보안, 비용 및 관리를 위한 조직 표준 및 거버넌스를 구현합니다.
고려 사항
이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.
이 아키텍처의 기술은 각각이 조직에서 가장 일반적인 데이터 문제를 처리하는 데 필요한 기능을 제공하기 때문에 선택되었습니다. 이러한 서비스는 확장성과 가용성에 대한 요구 사항을 충족하는 동시에 비용을 관리하는 데 도움이 됩니다. 이 아키텍처에서 다루는 서비스는 훨씬 더 큰 Azure 서비스 제품군의 하위 집합일 뿐입니다. 이 설계에서 다루지 않는 다른 서비스나 기능을 사용하여 유사한 결과를 얻을 수 있습니다.
분석 사용 사례에 대한 특정 비즈니스 요구 사항의 경우 이 설계에서 고려되지 않은 다른 서비스 또는 기능을 사용해야 할 수 있습니다.
워크로드를 개발하고 테스트할 수 있는 사전 프로덕션 환경에 대해서도 유사한 아키텍처를 구현할 수 있습니다. 비용 효율적인 사전 프로덕션 환경을 위한 각 서비스의 기능과 워크로드에 대한 특정 요구 사항을 고려합니다.
비용 최적화
비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.
일반적으로 Azure 가격 계산기를 사용하여 비용을 예측합니다. 이상적인 개별 가격 책정 계층과 아키텍처에 포함된 각 서비스의 총 전체 비용은 처리 및 저장되는 데이터의 양과 예상되는 수용 가능한 성능 수준에 따라 달라집니다. 아래 가이드를 사용하여 각 서비스의 가격 책정 방식에 대해 자세히 알아봅니다.
Azure Synapse Analytics 서버리스 아키텍처를 사용하면 독립적으로 컴퓨팅 및 스토리지 수준의 크기를 조정할 수 있습니다. 컴퓨팅 리소스는 사용량에 따라 요금이 청구되며, 수요에 따라 이러한 리소스를 조정하거나 일시 중지할 수 있습니다. 스토리지 리소스는 테라바이트 단위로 요금이 청구되므로 수집하는 데이터의 양이 많을수록 비용이 증가합니다.
Azure Data Lake Gen 2는 저장된 데이터의 양과 데이터를 읽고 쓸 트랜잭션 수에 따라 요금이 청구됩니다.
Azure Event Hubs 및 Azure IoT Hub는 메시지 스트림을 처리하는 데 필요한 컴퓨팅 리소스의 양에 따라 요금이 청구됩니다.
Azure Machine Learning 요금은 기계 학습 모델을 학습하고 배포하는 데 사용되는 컴퓨팅 리소스의 양에 따라 청구됩니다.
Cognitive Services는 서비스 API에 대한 호출 수에 따라 요금이 청구됩니다.
Microsoft Purview는 카탈로그에 있는 데이터 자산의 수와 이를 검사하는 데 필요한 컴퓨팅 성능에 따라 가격이 책정됩니다.
Azure Stream Analytics는 스트림 쿼리를 처리하는 데 필요한 컴퓨팅 성능에 따라 요금이 청구됩니다.
Power BI는 다양한 요구 사항에 대한 다양한 제품 옵션을 갖고 있습니다. Power BI Embedded는 애플리케이션 내부에 Power BI 기능을 포함할 수 있는 Azure 기반 옵션을 제공합니다. Power BI Embedded 인스턴스는 위의 가격 책정 샘플에 포함되어 있습니다.
Azure Cosmos DB는 데이터베이스에 필요한 스토리지 및 컴퓨팅 리소스의 양에 따라 가격이 책정됩니다.
시나리오 배포
이 문서에는 이 아키텍처에서 다루는 서비스의 배포를 자동화하는 방법을 보여 주는 GitHub에서 사용할 수 있는 도우미 리포지토리가 있습니다. Azure Synapse 배포 가이드에서 Azure 분석 엔드 투 엔드에 따라 이 아키텍처를 구독에 배포합니다. 해당 배포 가이드에는 자세한 지침과 여러 배포 옵션이 있습니다.
참가자
이 문서는 Microsoft에서 업데이트 및 유지 관리 중입니다. 원래 다음 기여자가 작성했습니다.
보안 주체 작성자:
- Fabio Braga | 수석 MTC 기술 설계자
비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.
다음 단계
Azure의 확장 가능한 분석 환경에 대한 Azure 데이터 관리 및 분석 시나리오에 정의된 지침을 검토합니다.
이 참조 아키텍처와 관련된 서비스에 대한 추가 학습 콘텐츠 및 랩은 Microsoft의 데이터 엔지니어 학습 경로를 참조하세요.
설명서를 검토하고 GitHub에서 제공되는 배포 가속기를 사용하여 참조 아키텍처를 배포합니다.