연습 - 기본 제공 템플릿에서 HPC 클러스터 만들기
Azure CycleCloud 웹 애플리케이션의 그래픽 인터페이스에서 직접 새 클러스터를 만들 수 있습니다. CycleCloud는 해당 스케줄러에 대한 클러스터 프로비저닝을 간소화하는 미리 정의된 많은 스케줄러 관련 템플릿을 제공합니다.
이제 CycleCloud 웹 애플리케이션을 호스팅하는 Azure Virtual Machines를 프로비전했으므로 Slurm 기반 HPC 클러스터를 Azure에 배포하기 위한 용도를 평가할 준비가 되었습니다. 먼저 Azure 구독이 클러스터의 리소스 요구 사항을 수용하는지 확인해야 합니다. 또한 관리 팀이 클러스터 비용을 프로젝트 예산 내에서 유지하기를 원하는지 여부도 고려하려고 합니다. 따라서 CycleCloud 예산 경고를 설정하고, 평가를 완료한 후 랩 환경의 프로비전을 해제할 계획입니다.
이 연습에서는 Azure CycleCloud를 사용하여 Slurm 기반 HPC 클러스터를 Azure에 배포하는 과정을 단계별로 안내합니다. 연습은 다음 작업으로 구성됩니다.
- 작업 1: HPC 클러스터 배포 준비
- 작업 2: Azure CycleCloud를 사용하여 HPC 클러스터 만들기
- 작업 3: Azure CycleCloud를 사용하여 HPC 클러스터 구성 및 시작
- 작업 4: 랩 환경 정리
작업 1: HPC 클러스터 배포 준비
HPC 클러스터를 배포하기 전에 먼저 사용량을 수용할 수 있는 충분한 네트워크 및 컴퓨팅 리소스가 있는지 확인해야 합니다.
참고 항목
이 연습에서는 만드는 클러스터에서 작업을 실행하지 않을 것이기 때문에 컴퓨팅 노드의 프로비저닝을 수용할 수 있도록 할당량 요구 사항을 충족할 필요가 없습니다. 그러나 이 경우 연습의 스크린샷과 CycleCloud 웹 인터페이스가 일치하지 않을 수 있습니다. 사용 가능한 코어 수가 충분하지 않으면 CycleCloud가 자리 표시자 컴퓨팅 노드를 미리 만들지 않기 때문입니다.
컴퓨터에서 Azure Portal을 표시하는 웹 브라우저 창으로 전환합니다.
Azure Portal에서 포털 인터페이스 상단에 있는 검색 상자를 사용하여 cyclecloud-rg 리소스 그룹을 검색합니다.
Azure Portal의 cyclecloud-rg 페이지에 있는 리소스 목록에서 cyclecloud-vnet 항목을 선택합니다. 이 항목은 이 모듈의 이전 실습에서 프로비저닝한 가상 네트워크를 나타냅니다.
cyclecloud-rg-vnet 페이지 왼쪽 세로 메뉴에서 서브넷을 선택합니다.
cyclecloud-rg-vnet | 서브넷 창에서 + 서브넷을 선택합니다.
서브넷 추가 창의 이름 텍스트 상자에 contoso-slurm-lab-cluster-subnet을 입력하고, 기본 서브넷 범위를 수락한 후 저장을 선택합니다.
참고 항목
클러스터 컴퓨팅 리소스를 호스트하는 서브넷에서 CycleCloud Azure VM을 호스트하는 서브넷을 분리하는 것이 좋습니다. 대규모 클러스터에는 충분한 크기의 IP 주소 범위를 할당해야 합니다.
Azure Portal에서 검색 상자를 사용하여 구독을 검색합니다.
구독 페이지에서 이 모듈의 연습에 사용 중인 Azure 구독을 선택합니다.
Azure 구독을 표시하는 페이지의 왼쪽에 있는 세로 메뉴의 설정 섹션에서 사용량 + 할당량을 선택합니다.
사용량 + 할당량 창에서 다음 필터링 설정을 구성합니다(나머지는 기본값을 그대로 사용).
설정 값 서비스 선택 표준 Dv3 제품군 vCPU, 표준 FSv2 제품군 vCPU, 총 지역 vCPU 항목을 선택합니다. 공급자 선택 Microsoft.Compute 항목을 선택합니다. 위치 선택 이 연습에서 클러스터를 배포하려는 Azure 지역의 이름을 선택합니다. 출력을 검토하고 각 그룹에서 사용 가능한 vCPU 수를 확인합니다.
작업 2: Azure CycleCloud를 사용하여 HPC 클러스터 만들기
이제 Azure VM에 CycleCloud 웹 애플리케이션을 설치했고, Azure 구독에서 사용할 수 있는 vCPU 코어를 충분히 확보했으며, 클러스터 노드의 자동 스케일링을 수용할 수 있는 지정된 네트워크 서브넷을 확보했습니다. Slurm 기반 클러스터의 배포를 진행할 준비가 되었습니다.
컴퓨터의 웹 브라우저 창에서 Azure CycleCloud 웹 애플리케이션의 구독 페이지가 표시되면 왼쪽 위에서 클러스터로 돌아가기 링크를 선택합니다.
새 클러스터 만들기 페이지에서 사용 가능한 옵션을 검토하고 스케줄러 섹션에서 Slurm을 선택합니다.
새 Slurm 클러스터 페이지의 정보 탭에 있는 클러스터 이름 텍스트 상자에 contoso-slurm-lab-cluster를 입력합니다.
새 Slurm 클러스터 페이지의 필수 설정 탭에 있는 클러스터 이름 텍스트 상자에서 다음 설정을 구성합니다(나머지는 기본값을 그대로 사용).
설정 값 지역 이 연습에서 클러스터를 배포하려는 Azure 지역의 이름을 선택합니다. 스케줄러 VM 유형 선택을 선택한 다음, 머신 종류 선택 팝업 창에서 SKU 검색 텍스트 상자에 "D2ds_v5"를 입력합니다. 결과 목록에서 D2ds_v5 항목 옆에 있는 확인란을 선택하고 적용을 선택합니다. 설정 값 최대 HPC 코어 수 100 입력 최대 HTC 코어 수 100 입력 ScaleSet당 최대 VM 수 40 입력 서브넷 ID cyclecloud-rg: cyclecloud-rg-vnet-contoso-slurm-lab-cluster-subnet을 선택합니다. 참고 항목
크기 조정 집합이 현재 InfiniBand 패브릭 경계이기 때문에 크기 조정 집합당 최대 VM 수 설정은 클러스터에서 실행할 수 있는 메시지 전달 인터페이스 작업의 최대 크기를 제한합니다.
새 Slurm 클러스터 페이지의 네트워크 연결 스토리지 탭에서 NFS 형식이 기본 제공으로 설정되어 있는지 확인합니다. 100으로 설정된 크기(GB)의 기본값을 수락하고 다음을 선택합니다.
새 Slurm 클러스터 페이지의 고급 설정 탭에서 변경 없이 사용 가능한 옵션을 검토하고 다음을 선택합니다.
새 Slurm 클러스터 페이지의 Cloud-init 탭에서 변경 없이 사용 가능한 옵션을 검토하고 저장을 선택합니다.
작업 3: Azure CycleCloud를 사용하여 HPC 클러스터 구성 및 시작
클러스터의 운영을 준비하기 위해, 클러스터 사용량 비용이 Azure 리소스 비용에 할당된 예산에 도달할 때 경고를 보내도록 설정할 것입니다. 또한 CycleCloud 웹 애플리케이션의 그래픽 인터페이스에서 클러스터를 시작하여 배포의 유효성을 검사할 것입니다.
Azure CycleCloud 웹 애플리케이션의 그래픽 인터페이스를 표시하는 컴퓨터의 웹 브라우저에서 새로 배포된 클러스터의 속성을 검토합니다.
contoso-slurm-lab-cluster 페이지에서 새 경고 만들기 링크를 선택합니다.
Cluster usage alert for contoso-slurm-lab-cluster(contoso-slurm-lab-cluster에 대한 클러스터 사용량 경고) 팝업 창에서 다음 설정을 지정한 후에 저장을 선택합니다.
설정 값 예산 $100.00 Per 월 알림 보내기 Enabled 받는 사람 cc-admin@contoso.com contoso-slurm-lab-cluster 페이지로 돌아가서 시작 링크를 선택하고 확인하라는 메시지가 표시되면 확인을 선택합니다.
시작 프로세스를 모니터링합니다.
참고
프로세스에는 클러스터의 헤드 노드 역할을 하는 Azure VM의 프로비저닝과 Slurm 스케줄러의 설치 및 구성이 포함됩니다. 5분 정도 걸릴 수 있습니다.
작업 4: 랩 환경 정리
Azure CycleCloud 애플리케이션을 사용하여 클러스터 배포 프로세스의 테스트를 완료했습니다. Azure 리소스 사용과 관련하여 불필요한 비용을 방지하기 위해 클러스터를 종료하고 이 과정에서 프로비저닝한 모든 리소스를 제거할 것입니다.
Azure CycleCloud 웹 애플리케이션의 그래픽 인터페이스를 표시하는 컴퓨터의 웹 브라우저에서 contoso-slurm-lab-cluster 페이지에 있는 종료 링크를 선택하고 확인하라는 메시지가 표시되면 확인을 선택합니다.
종료 프로세스를 모니터링합니다.
참고
프로세스에는 클러스터 헤드 노드의 역할을 하는 Azure VM의 프로비전 해제가 포함됩니다. 5분 정도 걸릴 수 있습니다.
참고
이 작업에서 설명한 대로 이 연습의 일부로 배포한 리소스를 삭제해야 합니다. 리소스를 삭제하지 않으면 구독에 추가 요금이 발생할 수 있습니다.
참고 항목
이 랩에서 프로비전한 다른 모든 리소스를 삭제하려면 cyclecloud-rg 리소스 그룹을 삭제합니다.
컴퓨터에서 Azure Portal을 표시하는 브라우저 창으로 전환합니다.
Azure Portal에서 cyclecloud-rg 블레이드로 이동합니다. 도구 모음에서 리소스 그룹 삭제 항목을 선택하고 리소스 그룹 이름 입력 텍스트 상자에 cyclecloud-rg를 입력한 다음, 삭제를 선택합니다.
이전 단계를 반복하여 클러스터에서 사용하는 디스크 리소스가 포함된 이름이 contoso-slurm-lab-cluster-로 시작하는 리소스 그룹을 삭제합니다.
축하합니다! 이 모듈의 두 번째 연습을 완료했습니다. 새 클러스터 배포를 수용하는 데 필요한 컴퓨팅 및 네트워크 리소스의 가용성을 보장했습니다. 그런 다음, Azure CycleCloud를 사용하여 클러스터를 배포했고, 예산 경고를 구성했으며, 이 기능의 유효성을 검사하기 위해 클러스터를 시작했습니다. 마지막으로 클러스터를 종료했으며, 불필요한 비용을 방지하기 위해 이 모듈에서 프로비저닝한 모든 리소스를 삭제했습니다.