Azure HDInsight의 안정성

아티클
11/20/2024

이 문서에서는 Azure HDInsight의 안정성 지원에 대해 설명하고 가용성 영역 및 지역 간 복구 및 비즈니스 연속성을 다룹니다. Azure의 안정성에 대한 포괄적인 개요는 Azure 안정성을 참조하세요.

가용성 영역 지원

가용성 영역은 각 Azure 지역 내에서 물리적으로 별도의 데이터 센터 그룹입니다. 한 영역이 실패하면 서비스가 나머지 영역 중 하나로 장애 조치(failover)될 수 있습니다.

Azure HDInsight는 영역 배포 구성을 지원합니다. Azure HDInsight 클러스터 노드는 선택한 지역에서 선택한 단일 영역에 배치됩니다. 영역 HDInsight 클러스터는 다른 영역에서 발생하는 중단으로부터 격리됩니다. 그러나 중단이 HDInsight 클러스터에 대해 선택한 특정 영역에 영향을 주는 경우 해당 클러스터를 사용할 수 없습니다. 이 배포 모델은 클러스터 내에서 저렴하고 대기 시간이 짧은 네트워크 연결을 제공합니다. 이 배포 모델을 여러 가용성 영역에 복제하면 더 높은 수준의 가용성을 제공하여 하드웨어 오류로부터 보호할 수 있습니다.

Important

사용자가 특정 영역을 지정하지 않는 배포의 경우 노드 형식은 영역 복원력이 없으며 해당 지역의 모든 영역에서 중단 중에 가동 중지 시간이 발생할 수 있습니다.

필수 조건

가용성 영역은 2023년 6월 15일 이후에 만들어진 클러스터에 대해서만 지원됩니다. 클러스터를 만든 후에는 가용성 영역 설정을 업데이트할 수 없습니다. 또한 가용성 영역을 사용하도록 기존의 비가용성 영역 클러스터를 업데이트할 수 없습니다.
클러스터는 사용자 지정 VNet에서 만들어야 합니다.
동일한 가용성 영역에서 이러한 DB를 구성할 수 있도록 Ambari DB 및 외부 메타스토어(예: Hive 메타스토어)용 SQL DB를 가져와야 합니다.
다음 지역 중 하나에서 가용성 영역 옵션을 사용하여 HDInsight 클러스터를 만들어야 합니다.
- 오스트레일리아 동부
- 브라질 남부
- 캐나다 중부
- 미국 중부
- 미국 동부
- 미국 동부 2
- 프랑스 중부
- 독일 중서부
- 일본 동부
- 한국 중부
- 북유럽
- 카타르 중부
- 동남 아시아
- 미국 중남부
- 영국 남부
- US Gov 버지니아
- 서유럽
- 미국 서부 2

가용성 영역을 사용하여 HDInsight 클러스터 만들기

ARM(Azure Resource Manager) 템플릿을 사용하여 지정된 가용성 영역으로 HDInsight 클러스터를 시작할 수 있습니다.

리소스 섹션에서 '영역' 섹션을 추가하고 이 클러스터를 배포할 가용성 영역을 제공해야 합니다.

   "resources": [
        {
            "type": "Microsoft.HDInsight/clusters",
            "apiVersion": "2021-06-01",
            "name": "[parameters('cluster name')]",
            "location": "East US 2",
            "zones": [
                "1"
            ],
        }
   ]

여러 영역에서 하나의 가용성 영역 내 노드 확인

HDInsight 클러스터가 준비되면 위치를 확인하여 클러스터가 배포된 가용성 영역을 확인할 수 있습니다.

클러스터 개요의 가용성 영역 정보를 보여 주는 스크린샷.

API 응답 가져오기:

 [
        {
            "location": "East US 2",
            "zones": [
                "1"
            ],
        }
 ]

클러스터 스케일 업

더 많은 작업자 노드로 HDInsight 클러스터를 스케일 업할 수 있습니다. 새로 추가된 작업자 노드는 이 클러스터의 동일한 가용성 영역에 배치됩니다.

가용성 영역 마이그레이션

Azure HDInsight 클러스터는 현재 기존 클러스터 인스턴스에서 가용성 영역 지원으로의 현재 위치 마이그레이션을 지원하지 않습니다. 그러나 클러스터를 다시 만들기로 선택하고, 클러스터를 만드는 동안 다른 가용성 영역 또는 지역을 선택할 수 있습니다. 다른 지역의 보조 대기 클러스터와 다른 가용성 영역은 재해 복구 시나리오에서 사용할 수 있습니다.

영역 다운 환경

가용성 영역이 다운되는 경우:

이 클러스터에 ssh로 접속할 수 없습니다.
이 클러스터를 삭제하거나 스케일 업하거나 스케일 다운할 수 없습니다.
작업을 제출하거나 작업 기록을 볼 수 없습니다.
다른 지역에서 새 클러스터 만들기 요청을 제출할 수 있습니다.

지역 간 재해 복구 및 비즈니스 연속성

DR(재해 복구)은 가동 중지 시간 및 데이터 손실을 초래하는 자연 재해 또는 실패한 배포와 같은 영향이 큰 이벤트로부터 복구하는 것입니다. 원인에 관계없이 최상의 재해 해결책은 잘 정의되고 테스트된 DR 계획과 DR을 적극적으로 지원하는 애플리케이션 디자인입니다. 재해 복구 계획을 만들기 전에 재해 복구 전략을 디자인하기 위한 권장 사항을 참조하세요.

DR과 관련하여 Microsoft는 공유 책임 모델을 사용합니다. 공유 책임 모델에서 Microsoft는 기준 인프라 및 플랫폼 서비스를 사용할 수 있도록 보장합니다. 동시에 많은 Azure 서비스는 데이터를 자동으로 복제하거나 실패한 지역에서 대체하여 사용하도록 설정된 다른 지역으로 교차 복제하지 않습니다. 이러한 서비스의 경우 워크로드에 적합한 재해 복구 계획을 설정할 책임이 있습니다. Azure PaaS(Platform as a Service) 제품에서 실행되는 대부분의 서비스는 DR을 지원하는 기능과 지침을 제공하며, 서비스별 기능을 사용하여 빠른 복구를 지원하여 DR 계획을 개발하는 데 도움이 될 수 있습니다.

Azure HDInsight 클러스터는 스토리지, 데이터베이스, Active Directory, Active Directory Domain Services, 네트워킹, Key Vault 등의 많은 Azure 서비스를 사용합니다. 잘 디자인되고, 가용성이 뛰어나고, 내결함성이 있는 분석 애플리케이션은 이러한 서비스 중 하나 이상에서 국가별 또는 지역 중단을 견딜 수 있는 충분한 중복을 가지도록 디자인해야 합니다. 이 섹션에서는 비즈니스 연속성 계획의 모범 사례, 단일 및 다중 지역 가용성, 최적화 옵션에 관한 개요를 제공합니다.

다중 지역 지리의 재해 복구

지역 간 고가용성 재해 복구를 사용하여 비즈니스 연속성을 향상하려면 복잡성과 비용이 더 높은 아키텍처 디자인이 필요합니다. 다음 표에서는 총 소유 비용을 늘릴 수 있는 몇 가지 기술 영역을 자세히 설명합니다.

비용 최적화

지역	비용 에스컬레이션의 원인	최적화 전략
데이터 스토리지	보조 지역의 주 데이터/테이블 복제	큐레이팅된 데이터만 복제
데이터 송신	아웃바운드 지역 간 데이터 전송은 대가가 따릅니다. 대역폭 가격 책정 지침 검토	큐레이팅된 데이터만 복제하여 지역 송신 공간 줄이기
클러스터 컴퓨팅	보조 지역의 추가 HDInsight 클러스터/초	자동화된 스크립트를 사용하여 주 실패 후 보조 컴퓨팅을 배포합니다. 자동 스케일링을 사용하여 보조 클러스터 크기를 최솟값으로 유지합니다. 더 저렴한 VM SKU를 사용합니다. VM SKU가 할인될 수 있는 지역에 보조 복제본을 만듭니다.
인증	보조 지역의 다중 사용자 시나리오에는 추가 Microsoft Entra Domain Services 설정이 필요합니다.	보조 지역에서 다중 사용자 설정을 방지합니다.

복잡성 최적화

지역	복잡성 에스컬레이션의 원인	최적화 전략
읽기 쓰기 패턴	주 및 보조 지역에서 둘 다 읽고 쓸 수 있도록 요구	보조 지역을 읽기 전용으로 디자인합니다.
Zero RPO & RTO	데이터 손실(RPO=0) 및 가동 중지 시간 없음(RTO=0) 요구	장애 조치에 필요한 구성 요소 수를 줄이는 방식으로 RPO와 RTO를 디자인합니다. RTO 및 RPO에 대한 자세한 내용은 비즈니스 연속성, 고가용성 및 재해 복구란?을 참조하세요.
비즈니스 기능	보조 지역에서 주 지역의 전체 비즈니스 기능 요구	보조 지역에서 비즈니스 기능 중 최소한의 중요한 하위 집합을 실행할 수 있는지 평가합니다.
연결	주 지역의 모든 업스트림 및 다운스트림 시스템이 보조 지역에도 연결되도록 요구	보조 연결을 최소한의 중요한 하위 집합으로 제한합니다.

다중 지역 재해 복구 계획을 만들 때는 다음 권장 사항을 고려하세요.

재해가 발생한 경우 필요한 최소한의 비즈니스 기능과 그 이유를 결정합니다. 예를 들어, 데이터 변환 계층(노란색으로 표시) ‘및’ 데이터 서비스 계층(파란색으로 표시)에 대한 장애 조치(failover) 기능이 필요한지, 아니면 데이터 서비스 계층에 대한 장애 조치만 필요한지 평가합니다.
워크로드, 개발 수명 주기, 부서에 따라 클러스터를 분할합니다. 클러스터가 많을수록 여러 가지 비즈니스 프로세스에 영향을 주는 단일 대규모 실패가 발생할 가능성이 감소합니다.
보조 지역을 읽기 전용으로 설정합니다. 읽기 및 쓰기 기능을 둘 다 사용하는 장애 조치 지역은 복잡한 아키텍처가 될 수 있습니다.
재해 발생 시 임시 클러스터를 더 쉽게 관리할 수 있습니다. 클러스터를 순환할 수 있고 클러스터에서 상태를 유지 관리하지 않는 방식으로 워크로드를 디자인합니다.
종종 워크로드는 재해 발생 시 완료되지 않은 상태이므로 새 지역에서 다시 시작해야 합니다. 실제로 Idempotent가 되도록 워크로드를 디자인합니다.
클러스터를 배포하는 동안 자동화를 사용하고 재해 발생 시 신속하고 완전 자동화된 배포를 보장하기 위해 클러스터 구성 설정이 최대한 스크립팅되도록 합니다.

중단 검색, 알림 및 관리

HDInsight에서 Azure 모니터링 도구를 사용하여 클러스터에서 비정상적인 동작을 탐지하고 해당하는 경고 알림을 설정합니다. 특정 클러스터 유형의 중요한 성능 메트릭을 수집하는 미리 구성된 HDInsight 클러스터 관련 관리 솔루션을 배포할 수 있습니다. 자세한 내용은 HDInsight에 대한 Azure 모니터링을 참조하세요.
구독, 서비스 또는 지역과 관련된 서비스 문제, 계획된 유지 관리, 상태, 보안 공지에 관한 알림을 받으려면 Azure 상태 경고를 구독합니다. 문제 원인과 해결 ETA를 포함하는 상태 알림은 장애 조치와 장애 복구를 더 효율적으로 실행하는 데 도움이 됩니다. 자세한 내용은 Azure Service Health 설명서를 참조하세요.

단일 지역 지리의 재해 복구

기본 HDInsight 시스템의 각 구성 요소에는 고유한 단일 지역 내결함성 메커니즘이 있습니다. 비즈니스 기능에 영향을 주는 치명적인 이벤트가 항상 발생하는 것은 아닙니다. 단일 지역에 있는 다음 서비스 중 하나 이상의 서비스 인시던트로 인해 필요한 비즈니스 기능이 손실될 수도 있습니다.

컴퓨팅(가상 머신): Azure HDInsight 클러스터. HDInsight는 99.9%의 가용성 SLA를 제공합니다. 단일 배포에서 고가용성을 제공하기 위해 HDInsight는 기본적으로 고가용성 모드에 있는 많은 서비스와 함께 제공됩니다. HDInsight의 내결함성 메커니즘은 Microsoft 및 Apache OSS 에코시스템 고가용성 서비스에서 둘 다 제공됩니다.

다음 인프라 구성 요소는 고가용성을 제공하도록 디자인되었습니다.
- 활성 및 대기 헤드 노드
- 여러 게이트웨이 노드
- Zookeeper 쿼럼 노드 3개
- 장애 도메인과 업데이트 도메인에서 배포된 작업자 노드
다음 서비스 또한 고가용성을 제공하도록 디자인되었습니다.
- Apache Ambari 서버
- YARN용 애플리케이션 타임라인 서버
- Hadoop MapReduce용 작업 기록 서버
- Apache Livy
- HDFS
- YARN Resource Manager
- HBase Master
자세히 알아보려면 Azure HDInsight에서 지원하는 고가용성 서비스를 참조하세요.
메타스토어: Azure SQL Database. HDInsight는 99.99%의 SLA를 제공하는 메타스토어로 Azure SQL Database를 사용합니다. 동기 복제를 사용하여 데이터 센터 내에서 세 개의 데이터 복제본이 유지됩니다. 복제본이 손실되면 대체 복제본이 원활하게 제공됩니다. 활성 지역 복제는 최대 네 개의 데이터 센터에서 기본적으로 지원됩니다. 수동 또는 데이터 센터 장애 조치(failover)가 발생하면 계층 구조의 첫 번째 복제본이 자동으로 읽기/쓰기 가능 상태가 됩니다. 자세한 내용은 Azure SQL Database 비즈니스 연속성을 참조하세요.
스토리지: Azure Data Lake Gen2 또는 Blob Storage. HDInsight는 기본 스토리지 계층으로 Azure Data Lake Storage Gen2를 권장합니다. Azure Data Lake Storage Gen2를 포함한 Azure Storage는 99.9%의 SLA를 제공합니다. HDInsight는 데이터 센터 내에서 세 개의 데이터 복제본이 유지되고 복제가 동기화되는 LRS 서비스를 사용합니다. 복제본이 손실되면 복제본이 원활하게 제공됩니다.
인증: Microsoft Entra ID, Microsoft Entra Domain Services, Enterprise Security Package.
- Microsoft Entra ID는 99.9%의 SLA를 제공합니다. Active Directory는 여러 수준의 내부 중복과 자동 복구 기능을 제공하는 글로벌 서비스입니다. 자세한 내용은 Microsoft에서 Microsoft Entra ID의 안정성을 지속적으로 개선하는 방법을 참조하세요.
- Microsoft Entra Domain Services는 99.9%의 SLA를 제공합니다. Microsoft Entra Domain Services는 전 세계에 분산된 데이터 센터에서 호스트되는 고가용성 서비스입니다. 복제본 세트는 Azure 지역이 오프라인으로 전환되는 경우 지리적 재해 복구를 가능하게 하는 Microsoft Entra Domain Services의 미리 보기 기능입니다. 자세한 내용은 Microsoft Entra Domain Services에 대한 복제본 세트 개념 및 기능을 참조하세요.
- Azure DNS는 100%의 SLA를 제공합니다. HDInsight는 도메인 이름 확인을 위해 다양한 위치에서 Azure DNS를 사용합니다.
Azure Key Vault 및 Azure Data Factory와 같은 선택적 서비스

HDInsight 구성 요소

다음을 통해 공유

Azure HDInsight의 안정성

가용성 영역 지원

필수 조건