올바른 HDInsight 구성 옵션 선택을 위한 의사 결정 기준

7분

다양한 분석 시나리오에 사용할 수 있는 여러 가지 HDInsight 서비스 구성이 있습니다. 실제로 HDInsight는 많은 OSS 분석 기술을 포함하며, 고급 분석 요구 사항을 충족하기 위한 원스톱 상점으로 간주할 수 있습니다. 사용 가능한 다양한 클러스터 유형은 모두 아래 설명된 비즈니스 시나리오의 요구 사항을 충족할 수 있습니다. 각 클러스터 유형마다 HDInsight 내에서 이러한 각 시나리오를 관리하는 방법을 완벽하게 제어할 수 있습니다. 

비즈니스 가치를 창출하기 위해 데이터를 처리하고 분석하는 시나리오의 경우 대부분 비즈니스의 요구 사항은 비슷합니다. 이 요구 사항에는 다음이 포함될 수 있습니다.

일괄 처리

HDInsight를 사용하여 Hadoop 또는 Spark를 사용하는 정형 및 비정형 데이터와 Hive 및 Sqoop을 비롯한 데이터 처리 프레임워크에서 ETL(추출, 변환 및 로드) 또는 ELT(추출, 로드 및 변환) 작업을 수행할 수 있습니다.  

데이터 웨어하우징

일반적으로 SQL Server와 같은 온-프레미스 관계형 데이터베이스에서 수행되고 최근에는 페타바이트 규모의 정형 데이터에 대한 Azure SQL Data Warehouse를 통해 수행됩니다. HDInsight에서는 다양한 형식의 정형 또는 비정형 데이터에 대한 페타바이트 규모의 대화형 쿼리가 가능합니다. Hive와 함께 HDInsight Hadoop을 사용하여 데이터 작업 및 보고 요구 사항을 관리하는 경우 이 기능이 적합합니다. 

스트리밍 데이터

Spark 스트리밍을 사용하는 IoT Hub 또는 이벤트 허브를 통해 HDInsight를 사용하여 다양한 원본에서 스트리밍 데이터를 수집할 수 있습니다.  

하이브리드

일부 조직에는 온-프레미스 빅 데이터 인프라가 이미 있습니다. HDInsight를 사용하여 클라우드로 기능을 확장할 수 있습니다.

올바른 HDInsight 클러스터 구성 옵션을 선택하기 위한 주요 의사 결정 사항은 HDInsight 클러스터에서 서비스를 제공하는 워크로드에 따라 다릅니다. 조직에서 여러 워크로드를 사용하는 경우 처리해야 하는 워크로드와 일치하도록 서로 다른 HDInsight 구성으로 전환하는 경우는 드물지 않습니다.

워크로드 유형	클러스터 유형
데이터 일괄 이동	Apache Hadoop
데이터 과학 – 일괄 처리 및 스트리밍	Apache Spark
트랜잭션 워크로드	HBase
임시 분석/데이터 웨어하우징	Apache Interactive Query
스트리밍 분석	Apache Kafka

중요

HDInsight 클러스터는 각 단일 워크로드 또는 기술에 다양한 유형으로 사용 가능합니다. 하나의 클러스터에서 Hadoop 및 HBase 등의 여러 유형을 결합하는 클러스터를 만들기 위해 지원되는 방법이 없습니다. 사용자 솔루션에 여러 유형의 HDInsight 클러스터에 분산되어 있는 기술이 필요한 경우, Azure Virtual Network는 여러 유형의 필요한 클러스터를 연결할 수 있습니다.

올바른 HDInsight 구성 옵션 선택을 위한 의사 결정 기준

일괄 처리

데이터 웨어하우징

스트리밍 데이터

하이브리드

피드백