InfiniBand 설정
이 문서에서는 EOL(수명 종료) 상태에 가까워진 Linux 배포판인 CentOS를 참조하세요. 이에 따라 사용 및 플랜을 고려하세요. 자세한 내용은 CentOS 수명 종료 지침을 참조하세요.
적용 대상: ✔️ Linux VM ✔️ Windows VM ✔️ 유연한 확장 집합 ✔️ 균일한 확장 집합
팁
워크로드에 가장 적합한 다른 크기를 찾으려면 가상 머신 선택기 도구를 사용해 보세요.
이 문서에서는 IB(InfiniBand) 네트워크를 통해 사용할 RDMA 지원 인스턴스에 대한 일부 정보를 공유합니다. InfiniBand 네트워크 아키텍처는 전체 지방 트리 디자인(높은 대역폭 및 짧은 대기 시간을 제공하는 네트워크 토폴로지)을 특징으로 하며, 비차단, 양방향 대칭을 보장합니다. 이 구성은 동일한 VMSS(가상 머신 확장 집합) 내의 두 VM(가상 머신) 간에 동일한 대역폭을 제공합니다.
RDMA 지원 인스턴스
대부분의 HPC VM 크기는 RDMA(원격 직접 메모리 액세스) 연결을 위한 네트워크 인터페이스를 제공합니다. 'r'로 지정된 일부 N-시리즈 크기도 RDMA를 지원합니다. 이 인터페이스는 다른 VM 크기에서 사용할 수 있는 표준 Azure 이더넷 네트워크 인터페이스 외에 추가로 사용됩니다.
이 보조 인터페이스를 통해 RDMA 지원 인스턴스는 H16r, H16mr 및 기타 RDMA 지원 N 시리즈 가상 머신에 대한 HBv4, HBv3, HBv2, HBv2, HC, HX, NDv2 및 FDR 속도의 HDR 속도로 작동하는 InfiniBand 네트워크를 통해 통신할 수 있습니다. 이러한 RDMA 기능은 MPI(Message Passing Interface) 기반 애플리케이션의 확장성 및 성능을 높일 수 있습니다.
참고 항목
SR-IOV 지원: Azure HPC에는 현재 InfiniBand에 대해 SR-IOV를 사용하는지 여부에 따라 두 개의 VM 클래스가 있습니다. 현재 Azure에서 H16r, H16mr, NC24r을 제외하고 모든 최신 세대, RDMA 지원 또는 InfiniBand 사용이 가능한 VM은 SR-IOV를 사용하도록 설정되어 있습니다. RDMA는 InfiniBand 네트워크를 통해서만 사용하도록 설정되며 모든 RDMA 지원 VM에 대해 지원됩니다. IP over IB는 SR-IOV 사용 VM 에서만 지원됩니다. RDMA는 이더넷 네트워크를 통해 사용하도록 설정되지 않습니다.
운영 체제 - CentOS, RHEL, AlmaLinux, Ubuntu, SUSE와 같은 Linux 배포판이 일반적으로 사용됩니다. Windows Server 2016 이상 버전은 모든 HPC 시리즈 VM에서 지원됩니다. Windows Server 2012 R2는 VM 크기가 64(가상 또는 실제) 코어 이상인 HBv2 이상부터 지원되지 않습니다. Azure Marketplace에서 지원되는 Linux VM 이미지 목록과 적절하게 구성하는 방법은 VM 이미지를 참조하세요. 각 VM 크기 페이지에도 소프트웨어 스택 지원이 나열되어 있습니다.
InfiniBand 및 드라이버 - InfiniBand 사용 VM에서 RDMA를 사용하도록 설정하려면 적절한 드라이버가 필요합니다. InfiniBand를 사용하도록 설정하여 VM 확장 또는 InfiniBand 드라이버 수동 설치에 대해 알아봅니다.
MPI - Azure에서 SR-IOV를 사용하는 VM 크기는 대부분의 MPI를 Mellanox OFED와 함께 사용할 수 있습니다. Azure의 HPC VM에서 MPI를 설정하는 방법에 대한 자세한 내용은 HPC에 대한 MPI 설정을 참조하세요.
참고 항목
RDMA 네트워크 주소 공간: Azure의 RDMA 네트워크는 주소 공간 172.16.0.0/16을 예약합니다. Azure 가상 네트워크에 배포된 인스턴스에서 MPI 애플리케이션을 실행하려면 가상 네트워크 주소 공간이 RDMA 네트워크와 겹치지 않도록 해야 합니다.
클러스터 구성 옵션
Azure에서는 다음을 비롯한 RDMA 네트워크를 사용하여 통신할 수 있는 HPC VM의 클러스터를 만드는 몇 가지 옵션을 제공합니다.
가상 머신 - Azure Resource Manager 배포 모델을 사용하는 경우 동일한 확장 집합이나 가용성 집합에서 RDMA 가능 HPC VM을 배포합니다. 클래식 배포 모델을 사용하는 경우 동일한 클라우드 서비스에서 VM을 배포합니다.
가상 머신 확장 집합 - 가상 머신 확장 집합에서 확장 집합 내 InfiniBand 통신 그룹의 단일 배치 그룹에 대한 배포를 제한하도록 합니다. 예를 들어, Resource Manager 템플릿에서
singlePlacementGroup
속성을true
로 설정합니다.
singlePlacementGroup=true
으로 스핀업할 수 있는 최대 확장 집합 크기는 기본적으로 100개의 VM으로 제한됩니다. HPC 작업 확장 요구가 단일 테넌트의 100VM 보다 높은 경우 온라인 고객 지원 요청을 열어 무료로 증량을 요청할 수 있습니다. 단일 확장 집합의 VM 수에 대한 제한은 300으로 늘릴 수 있습니다. 가용성 집합을 사용하여 VM을 배포하는 경우 최대 제한은 가용성 집합 당 VM 200입니다.
또한 VMSS는 동일한 클러스터 내의 워크로드 간에 격리 경계 역할을 하므로 보안을 보장하기 위해 서로 다른 VMSS의 인스턴스가 서로 격리된 상태로 유지됩니다.
참고 항목
가상 머신 간의 MPI: 가상 머신 간에 RDMA(예: MPI 통신 사용)가 필요한 경우 VM이 동일한 가상 머신 확장 집합 또는 가용성 집합에 있는지 확인합니다.
Azure CycleCloud - Azure CycleCloud에서 HPC 클러스터를 만들어서 MPI 작업을 실행합니다.
Azure Batch - Azure Batch 풀을 만들어 MPI 워크로드를 실행합니다. Azure Batch에서 MPI 애플리케이션 실행할 때 계산 집약적 인스턴스를 사용하려면 다중 인스턴스 작업을 사용하여 Azure Batch에서 MPI(메시지 전달 인터페이스) 애플리케이션 실행을 참조하세요.
Microsoft HPC 팩 - HPC 팩에는 RDMA 지원 Linux VM에 배포할 경우 Azure RDMA 네트워크를 사용하는 MS-MPI에 대한 런타임 환경이 포함되어 있습니다. 예제 배포는 MPI 애플리케이션을 실행하기 위해 HPC Pack을 사용하여 Linux RDMA 클러스터 설정을 참조하세요.
배포 고려 사항
Azure 구독 - 몇몇 계산 집약적 인스턴스를 배포하려면 종량제 구독 또는 기타 구매 옵션을 고려합니다. Azure 무료 계정을 사용하는 경우, 제한된 수의 Azure 컴퓨팅 코어만 사용할 수 있습니다.
코어 할당량 – 기본값에서 Azure 구독의 코어 할당량을 늘려야 합니다. 구독에 따라서도 H 시리즈를 포함하여 특정 VM 크기 제품군에 배포할 수 있는 코어 수가 제한될 수 있습니다. 할당량 증가를 요청하려면 무료로 온라인 고객 지원 요청을 개설 합니다. (기본 제한은 구독 범주에 따라 달라질 수 있습니다.)
참고 항목
대규모 용량이 필요한 경우 Azure 지원에 문의합니다. Azure 할당량은 신용 제한이며 용량 보증이 아닙니다. 할당량에 관계 없이 사용하는 코어에 대해서만 요금이 청구됩니다.
가상 네트워크 - Azure 가상 네트워크 는 계산 집약적 인스턴스를 사용할 필요가 없습니다. 하지만 많은 배포에서 온-프레미스 리소스에 액세스해야 하는 경우 적어도 클라우드 기반 Azure 가상 네트워크 또는 사이트 간 연결이 필요합니다. 필요한 경우 인스턴스를 배포할 새 가상 네트워크를 만듭니다. 선호도 그룹에서 가상 네트워크에 계산 집약적 VM을 추가하는 것은 지원되지 않습니다.
크기 조정 - 특수한 하드웨어로 인해 동일한 크기의 제품군(H 시리즈 또는 N 시리즈) 내에서만 계산 집약적 인스턴스의 크기를 조정할 수 있습니다. 예를 들어 H 시리즈 VM 크기는 한 H 시리즈에서 다른 H 시리즈로만 조정할 수 있습니다. InfiniBand 드라이버 지원 및 NVMe 디스크에 대한 추가 고려 사항은 특정 VM에 대해 고려해야 할 수 있습니다.
다음 단계
- HPC 워크로드에서 VM을 구성하고, InfiniBand를 사용하도록 설정하고, MPI를 설정하고, Azure 용 HPC 애플리케이션을 최적화하는 방법에 대해 자세히 알아보세요.
- HBv3시리즈 개요 및 HC 시리즈 개요를 검토합니다.
- Azure Compute 기술 커뮤니티 블로그에서 최신 공지 사항, HPC 워크로드 예제 및 성능 결과에 대해 읽어보세요.
- HPC 워크로드를 실행하는 상위 수준의 아키텍처 보기는 Azure의 HPC(고성능 컴퓨팅)를 참조하세요.