온-프레미스 Apache Hadoop 클러스터를 Azure HDInsight로 마이그레이션 - 동기 부여 및 혜택
이 문서는 온-프레미스 Apache Hadoop 에코 시스템 배포를 Azure HDInsight로 마이그레이션하는 모범 사례에 대한 시리즈의 첫 번째 문서입니다. 이 문서 시리즈는 Azure HDInsight에서 Apache Hadoop 솔루션을 설계, 배포 및 마이그레이션하는 책임을 맡고 있는 사람들을 위해 작성되었습니다. 이 문서가 도움이 될만한 역할로는 클라우드 설계자, Hadoop 관리자 및 DevOps 엔지니어가 포함됩니다. 소프트웨어 개발자, 데이터 엔지니어 및 데이터 과학자 또한 여러 종류의 클러스터가 클라우드에서 작동하는 방식에 대한 설명을 읽어보면 도움이 될 것입니다.
Azure HDInsight로 마이그레이션하는 이유
Azure HDInsight는 Hadoop 구성 요소의 클라우드 배포입니다. Azure HDInsight는 대량 데이터를 쉽고 빠르며 비용 효율적으로 처리할 수 있도록 합니다. HDInsight는 다음과 같은 가장 인기 있는 오픈 소스 프레임워크를 포함하고 있습니다.
- Apache Hadoop
- Apache Spark
- Apache Hive with LLAP
- Apache Kafka
- Apache HBase
온-프레미스 Hadoop에 비해 Azure HDInsight의 이점
저렴한 비용 - 주문형 클러스터를 만들고 사용한 만큼만 지불하여 비용을 줄일 수 있습니다. 컴퓨팅과 스토리지가 분리되어 클러스터 크기에 관계없이 데이터 볼륨이 유지되므로 유연성이 우수합니다.
클러스터 만들기 자동화 - 클러스터 만들기를 자동화하려면 최소한의 설치 및 구성이 필요합니다. 주문형 클러스터에 자동화를 사용할 수 있습니다.
관리 하드웨어 및 구성 - HDInsight 클러스터를 사용하면 물리적 하드웨어 또는 인프라에 대해 걱정할 필요가 없습니다. 클러스터 구성만 지정하면 Azure가 알아서 설정합니다.
쉬운 확장 가능 - HDInsight를 사용하면 워크로드를 확장 또는 축소할 수 있습니다. Azure는 데이터 처리 작업을 중단하지 않고 데이터 재배포 및 워크로드 리밸런싱을 처리합니다.
글로벌 가용성 - HDInsight는 그 어떤 빅 데이터 분석 제품보다 많은 지역에서 사용할 수 있습니다. Azure HDInsight는 주요 통치 지역에서 엔터프라이즈 요구 사항을 충족할 수 있도록 Azure Government, 중국 및 독일에서도 사용할 수 있습니다.
보안 및 규정 준수 - HDInsight를 사용하면 Azure 가상 네트워크, 암호화 및 Microsoft Entra와의 통합을 통해 엔터프라이즈 데이터 자산을 보호할 수 있습니다. HDInsight는 가장 널리 사용되는 업계 및 정부 규격 표준을 충족합니다.
버전 관리 간소화 - Azure HDInsight는 Hadoop 에코 시스템 구성 요소의 버전을 관리하고 최신 상태로 유지합니다. 소프트웨어 업데이트는 일반적으로 온-프레미스 배포를 위한 복잡한 프로세스입니다.
구성 요소 간 종속성이 적고 특정 워크로드에 최적화된 더 작아진 클러스터 - 일반적인 온-프레미스 Hadoop 설치 시 다목적 단일 클러스터를 사용합니다. Azure HDInsight를 사용하면 워크로드 관련 클러스터를 만들 수 있습니다. 특정 워크로드에 대한 클러스터를 만들면 복잡성이 점점 증가하는 단일 클러스터를 유지할 필요가 없습니다.
생산성 - 원하는 개발 환경에서 다양한 Hadoop 및 Spark용 도구를 사용할 수 있습니다.
사용자 지정 도구 또는 타사 애플리케이션을 통한 확장성 - HDInsight 클러스터는 설치된 구성 요소를 통해 확장 가능하며, Azure 마켓플레이스에서 원클릭배포를 사용하여 다른 빅 데이터 솔루션과 통합할 수도 있습니다.
쉬운 관리 및 모니터링 - Azure HDInsight는 Azure Monitor 로그 와 통합하여 모든 클러스터를 모니터링할 수 있는 단일 인터페이스를 제공합니다.
다른 Azure 서비스와 통합 - HDInsight는 다음과 같은 인기 Azure 서비스와 쉽게 통합할 수 있습니다.
- ADF(Azure Data Factory)
- Azure Blob Storage
- Azure Data Lake Storage Gen2
- Azure Cosmos DB
- Azure SQL Database
- Azure Analysis Services
자동 복구 프로세스 및 구성 요소 - HDInsight는 자체 모니터링 인프라를 사용하여 지속적으로 인프라 및 오픈 소스 구성 요소를 확인합니다. 또한 오픈 소스 구성 요소 및 노드를 사용할 수 없는 경우처럼 중요한 오류를 자동으로 복구합니다. OSS 구성 요소에 장애가 발생하면 Ambari에서 경고가 트리거됩니다.
자세한 내용은 Azure HDInsight 및 Apache Hadoop 기술 스택이란? 문서를 참조하세요.
마이그레이션 계획 프로세스
온-프레미스 Hadoop 클러스터를 Azure HDInsight로 마이그레이션하는 계획을 세울 때에는 다음 단계를 따르는 것이 좋습니다.
- 현재 온-프레미스 배포 및 토폴로지를 이해합니다.
- 현재 프로젝트 범위, 타임라인 및 팀 전문 분야를 이해합니다.
- Azure 요구 사항을 이해합니다.
- 모범 사례를 기반으로 세부 계획을 작성합니다.
마이그레이션을 준비하기 위한 세부 정보 수집
이 섹션에서는 다음에 대한 중요한 정보를 수집하는 데 도움이 되는 템플릿 설문지를 제공합니다.
- 온-프레미스 배포
- 프로젝트 세부 정보
- Azure 요구 사항
온-프레미스 배포 설문지
질문 | 예제 | 대답 |
---|---|---|
토픽: 환경 | ||
클러스터 배포 버전 | HDP 2.6.5, CDH 5.7 | |
빅 데이터 에코시스템 구성 요소 | HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R | |
클러스터 유형 | Hadoop, Spark, Confluent Kafka, Solr | |
클러스터 수 | 4 | |
마스터 노드 수 | 2 | |
작업자 노드의 수 | 100 | |
에지 노드 수 | 5 | |
총 디스크 공간 | 100TB | |
마스터 노드 구성 | m/y, cpu, 디스크 등 | |
데이터 노드 구성 | m/y, cpu, 디스크 등 | |
에지 노드 구성 | m/y, cpu, 디스크 등 | |
HDFS 암호화를 사용합니까? | 예 | |
고가용성 | HDFS HA, Metastore HA | |
재해 복구/백업 | 백업 클러스터 지원 여부 | |
클러스터에 종속된 시스템 | SQL Server, Teradata, Power BI, MongoDB | |
타사 통합 | Tableau, GridGain, Qubole, Informatica, Splunk | |
토픽: 보안 | ||
경계 보안 | 방화벽 | |
클러스터 인증 및 권한 부여 | Active Directory, Ambari, Cloudera Manager, 인증 없음 | |
HDFS 액세스 제어 | 수동, ssh 사용자 | |
Hive 인증 및 권한 부여 | Sentry, LDAP, AD with Kerberos, Ranger | |
감사 | Ambari, Cloudera Navigator, Ranger | |
모니터링 | Graphite, collectd, statsd , Telegraf, InfluxDB |
|
경고 | Kapacitor , Prometheus, Datadog |
|
데이터 보존 기간 | 3년, 5년 | |
클러스터 관리자 | 단일 관리자, 다중 관리자 |
프로젝트 세부 정보 설문지
질문 | 예제 | 대답 |
---|---|---|
토픽: 워크로드 및 빈도 | ||
MapReduce 작업 | 10개 작업--하루 2회 | |
Hive 작업 | 100개 작업--1시간마다 | |
Spark 일괄 작업 | 50개 작업--15분마다 | |
Spark Streaming 작업 | 5개 작업--3분마다 | |
Structured Streaming 작업 | 5개 작업--1분마다 | |
프로그래밍 언어 | Python, Scala, Java | |
스크립팅 | 셸, Python | |
토픽: 데이터 | ||
데이터 원본 | 플랫 파일, Json, Kafka, RDBMS | |
데이터 오케스트레이션 | Oozie 워크플로, Airflow | |
메모리 내 조회 | Apache Ignite, Redis | |
데이터 대상 | HDFS, RDBMS, Kafka, MPP | |
토픽: 메타데이터 | ||
Hive DB 형식 | Mysql, Postgres | |
Hive 메타스토어 수 | 2 | |
Hive 테이블 수 | 100 | |
Ranger 정책 수 | 20 | |
Oozie 워크플로 수 | 100 | |
토픽: 규모 | ||
복제를 비롯한 데이터 볼륨 | 100TB | |
일일 수집 볼륨 | 50GB | |
데이터 증가 속도 | 연 10% | |
클러스터 노드 증가 속도 | 연 5% | |
토픽: 클러스터 사용률 | ||
평균 CPU 사용률(%) | 60% | |
평균 메모리 사용률(%) | 75% | |
디스크 공간 사용률 | 75% | |
평균 네트워크 사용률(%) | 25% | |
토픽: 직원 | ||
관리자 수 | 2 | |
개발자 수 | 10 | |
최종 사용자 수 | 100 | |
기술 | Hadoop, Spark | |
마이그레이션 작업에 사용 가능한 리소스 수 | 2 | |
토픽: 제한 사항 | ||
현재 제한 사항 | 대기 시간이 높음 | |
현재 과제 | 동시성 문제 |
Azure 요구 사항 설문지
질문 | 예제 | 대답 |
---|---|---|
토픽: 인프라 | ||
기본 지역 | 미국 동부 | |
VNet이 기본 설정입니까? | 예 | |
HA/DR이 필요합니까? | 예 | |
다른 클라우드 서비스와의 통합 여부 | ADF, Azure Cosmos DB | |
토픽: 데이터 이동 | ||
초기 로드 기본 설정 | DistCp, Data box, ADF, WANDisco | |
데이터 전송 델타 | DistCp, AzCopy | |
지속적인 증분 데이터 전송 | DistCp, Sqoop | |
토픽: 모니터링 및 경고 | ||
Azure 모니터링 및 경고 사용과 타사 모니터링 통합 비교 | Azure 모니터링 및 경고 사용 | |
토픽: 보안 기본 설정 | ||
보호되는 프라이빗 데이터 파이프라인인가요? | 예 | |
도메인 가입 클러스터(ESP)입니까? | 예 | |
온-프레미스 AD가 클라우드와 동기화됩니까? | 예 | |
동기화할 AD 사용자 수가 몇입니까? | 100 | |
암호를 클라우드와 동기화해도 괜찮습니까? | 예 | |
클라우드 전용 사용자입니까? | 예 | |
MFA가 필요합니까? | 아니요 | |
데이터 권한 부여 요구 사항이 있습니까? | 예 | |
역할 기반 액세스 제어입니까? | 예 | |
감사가 필요합니까? | 예 | |
저장 데이터 암호화를 사용합니까? | 예 | |
전송 중 데이터 암호화를 사용합니까? | 예 | |
토픽: 재설계 기본 설정 | ||
단일 클러스터 vs 특정 클러스터 형식 | 특정 클러스터 형식 | |
공동 배치된 스토리지 Vs 원격 스토리지 | 원격 스토리지 | |
데이터로 더 작은 클러스터 크기는 원격으로 저장되나요? | 더 작은 클러스터 크기 | |
하나의 큰 클러스터 대신 작은 클러스터 여러 개를 사용합니까? | 작은 클러스터 여러 개 사용 | |
원격 metastore를 사용합니까? | 예 | |
서로 다른 클러스터 간에 metastore를 공유합니까? | 예 | |
워크로드를 분해합니까? | Hive 작업을 Spark 작업으로 대체 | |
데이터 오케스트레이션에 ADF를 사용합니까? | 아니요 |
다음 단계
이 시리즈의 다음 문서를 읽어보세요.