핫, 웜 및 콜드 데이터 경로에 대한 디자인 전략
전통적으로 데이터는 온-프레미스에 저장되었습니다. 데이터를 사용하는 방법에 대해서는 고려하지 않았습니다. 클라우드에서는 액세스, 수명 주기 및 기타 준수 요구 사항에 따라 데이터를 저장할 수 있습니다. 이 단원에서는 핫, 웜 및 콜드 데이터 경로를 검사하고 데이터 저장 및 컴퓨팅 옵션을 고려합니다.
웜 데이터 경로
웜 데이터 경로는 데이터가 시스템을 통해 흐를 때 데이터 분석을 지원합니다. 데이터 스트림은 거의 실시간으로 처리됩니다. 데이터는 웜 스토리지에 저장되고 분석 클라이언트에 푸시됩니다.
- Azure 플랫폼은 이벤트를 처리하기 위한 많은 옵션을 제공하며, 한 가지 인기 있는 선택은 Azure Stream Analytics입니다.
- Stream Analytics는 연속, 슬라이딩 및 도약 창에 대해 대규모로 복잡한 분석을 실행할 수 있습니다. 이 서비스는 스트림 집계 실행 및 외부 데이터 원본 조인을 지원합니다. 복잡한 처리를 위해 Azure Event Hubs, Stream Analytics 작업 및 Azure 함수의 여러 인스턴스를 계단식으로 배열하여 성능을 확장할 수 있습니다.
- 웜 스토리지는 Azure 플랫폼의 다양한 서비스(예: Azure SQL Database 및 Azure Cosmos DB)로 구현할 수 있습니다.
비즈니스 시나리오
IoT 디바이스 데이터 집계에 대한 일반적인 시나리오를 살펴보겠습니다. 디바이스는 데이터를 보낼 수 있지만 결과 또는 분석 데이터는 생성하지 않습니다. 이 상황은 IoT 데이터에서 인사이트 추출을 시도할 때의 공통적인 어려움을 보여 줍니다. 원하는 데이터가 수신된 데이터에서 제공되지 않습니다. 수신한 데이터를 다른 데이터 원본과 결합하여 사용률을 유추해야 합니다. 그런 다음, 규칙을 적용하여 머신이 결과를 생성하는지 여부를 판단합니다. 또한 회사의 분석 또는 결과에 대한 기대치가 다른 경우 규칙이 회사마다 달라질 수도 있습니다.
콜드 데이터 경로
웜 데이터 경로는 시간 경과에 따른 패턴을 찾아내기 위해 스트림 처리가 발생하는 위치입니다. 그러나 과거의 일정 기간 동안 사용률을 계산해야 할 수도 있습니다. 또한 다양한 피벗과 집계가 필요할 수 있고, 이러한 결과를 웜 경로 결과와 병합하여 사용자에게 통합된 뷰를 제시해야 합니다. 콜드 데이터 경로가 이러한 작업 수행에 도움이 될 수 있습니다.
- 콜드 데이터 경로는 일괄 처리 계층과 시스템의 장기간 뷰를 제공하는 서비스 계층으로 구성됩니다.
- 일괄 처리 계층은 긴 기간에 걸쳐 빠른 쿼리 응답을 사용하도록 설정하기 위해 미리 계산된 집계 뷰를 만듭니다. Azure 플랫폼은 이 계층에 대한 다양한 기술 옵션을 제공합니다.
- 콜드 경로에는 솔루션에 대한 장기 데이터 저장소가 포함되며 Azure Storage가 일반적인 방법입니다. Azure Storage에는 Azure Blob(개체), Azure Data Lake Storage Gen2, Azure File, Azure Queue 및 Azure Table이 포함됩니다.
- 콜드 스토리지는 Blobs, Data Lake Storage Gen2, Azure Tables 또는 조합이 될 수 있습니다.
- 대량의 비정형 데이터를 저장하기 위해 가장 좋은 옵션은 Blob Storage, Azure Files 또는 Azure Data Lake Storage Gen2입니다. 콜드 경로 스토리지는 IoT 애플리케이션에서 받은 처리되지 않은 데이터를 포함하는 원본 메시지에 적합합니다.
비즈니스 시나리오
시간이 지남에 따라 Tailwind Traders 웹 사이트 상호 작용을 위한 기계 학습 모델을 빌드해야 하는 시나리오를 검토합니다. 데이터 이동을 자동화하고 데이터 변환을 수행해야 합니다. 이 시나리오에서 Azure Data Factory는 이러한 요구 사항을 충족하기 위해 콜드 경로의 서비스 계층에서 일괄 처리 보기를 만들기 위한 훌륭한 솔루션입니다. 데이터 이동 및 데이터 변환을 오케스트레이션하고 자동화하기 위해 클라우드에서 데이터 기반 워크플로를 만들 수 있는 클라우드 기반 관리 데이터 통합 서비스입니다. Azure HDInsight Hadoop, Apache Spark 및 Azure Databricks와 같은 서비스를 사용하여 데이터를 처리하고 변환할 수 있습니다. 기계 학습 모델을 빌드하여 분석 클라이언트에 활용할 수 있습니다.
핫 데이터 경로
일반적으로 핫 데이터 경로는 데이터를 실시간으로 처리하거나 표시하는 데 사용됩니다. 이 경로는 실시간 경고 및 스트리밍 작업에 사용됩니다. 핫 경로는 대기 시간이 중요한 데이터이고, 결과가 몇 초 이내에 결과를 준비되어야 하며, 데이터가 분석 클라이언트에서 신속하게 사용할 수 있도록 흐릅니다.
비즈니스 시나리오
Tailwind Traders는 고객 포털에 대한 데이터 분석을 구현하려고 합니다. 스트리밍 데이터를 수집하고 관리자, 고객 도우미 및 포털 사용자에게 실시간 경고를 제공해야 합니다. 핫 경로는 이 시나리오에 이상적입니다. 데이터를 입력하거나 표시할 때 수집할 수 있습니다. 빠른 분석 및 후속 작업을 위해 데이터를 관리자에게 거의 실시간으로 전달할 수 있습니다.
데이터 경로 비교
다음 표에서는 세 가지 경로 솔루션에 대한 시나리오를 비교합니다. 시나리오를 검토하고 Tailwind Traders에 필요한 솔루션을 고려합니다.
시나리오 | 경로 솔루션 |
---|---|
자주 변경되는 데이터 요구 사항에 대한 유연한 지원 실시간으로 데이터 처리 또는 표시 지원. | 핫 데이터 경로 |
규정 준수 또는 법적 이유로 저장된 데이터와 같이 거의 사용되지 않는 데이터를 지원합니다. 장기 분석 및 일괄 처리를 위한 데이터 사용을 지원합니다.. | 콜드 데이터 경로 |
데이터의 최근 하위 집합을 저장 또는 표시합니다. 소규모 분석 및 일괄 처리에 대한 데이터 사용을 지원합니다.. | 웜 데이터 경로 |