다음을 통해 공유


Azure HPC(고성능 컴퓨팅) 랜딩 존 가속기

HPC(고성능 컴퓨팅) 랜딩 존 가속기는 환경 배포를 자동화합니다. 이 환경은 Azure에서 전체 HPC 클러스터 솔루션에 대한 엔드투엔드 배포 메커니즘을 생성하기 위해 사용자 지정할 수 있는 기본 프레임워크를 제공합니다. 가속기는 엔터프라이즈 규모 랜딩 존을 준비할 수 있는 오픈 소스 스크립트 및 템플릿의 컬렉션입니다. 클라우드 채택 프레임워크의 아키텍처 및 모범 사례를 준수하는 특정 아키텍처 접근 방식과 참조 구현을 제공할 수 있습니다.

고객은 비즈니스 요구 사항에 맞게 다양한 방법으로 HPC를 채택하고 HPC 랜딩 존 가속기를 조정하여 사용자 방식에 맞는 아키텍처를 생성할 수 있습니다. 가속기를 사용하면 조직을 지속 가능한 규모로 전환할 수 있습니다.

엔터프라이즈 규모 랜딩 존 구현

HPC 랜딩 존 가속기는 성공적으로 구현된 엔터프라이즈 규모 랜딩 존으로 시작한다고 가정합니다. 이 필수 조건에 대한 자세한 내용은 다음 문서를 참조하세요.

HPC 랜딩 존 가속기가 제공하는 항목

HPC 랜딩 존 가속기의 랜딩 존에 대한 접근 방식은 프로젝트에 다음 자산을 제공합니다.

  • 환경 변수를 사용자 지정할 수 있는 모듈식 접근 방식
  • 중요한 의사 결정을 평가하는 데 도움이 되는 디자인 지침
  • 랜딩 존 아키텍처
  • 다음을 포함하는 구현:
    • HPC 배포를 위한 환경을 생성할 수 있는 배포 가능한 참조
    • 배포된 환경을 테스트하기 위해 Microsoft에서 승인한 HPC 참조 구현

에너지, 제조, 금융에 대한 디자인 지침

랜딩 존의 아키텍처는 조직뿐 아니라 비즈니스 부문에 따라서도 다릅니다. 이 섹션에서는 랜딩 존을 생성하기 위한 지침을 제공하는 섹터별 문서를 나열합니다.

AI 워크로드용 HPC 컴퓨팅을 선택하기 위한 디자인 지침

AI 워크로드에 적합한 GPU 최적화 컴퓨팅 SKU를 선택하는 것은 성능을 최적화하고 비용을 제어하는 데 중요합니다. Microsoft는 더 많은 GPU 성능을 활용하는 워크로드에 최적화된 다양한 SKU를 제공합니다. AI 워크로드에 적합한 SKU를 선택할 때는 몇 가지 고려 사항이 있습니다. 더 작은 워크로드는 NDv4와 같은 더 강력한 SKU의 CPU, GPU 및 대역폭의 일부만 활용할 수 있습니다. 더 작은 작업에 대해 NCv4 및 NDv2와 같은 다른 컴퓨팅 SKU를 고려할 수 있습니다. 다음은 AI 워크로드에 적합한 GPU 최적화 컴퓨팅 SKU를 선택할 때 고려해야 할 사항입니다.

  • 검사점. 기계 학습 모델을 실행할 때 검사포인트 간격과 같은 요소를 고려합니다. 이는 학습 단계 동안 GPU 성능에 영향을 미칠 수 있습니다. 스토리지 효율성과 기본 원활한 GPU 작업 간의 균형을 조정합니다. GPU 사용량을 모니터링합니다.
  • 추론. 추론 요구 사항은 학습 요구 사항과 다르며 CPU 성능을 최대화할 수 있는 CPU 부하가 더 높을 수 있습니다. 컴퓨팅 SKU를 선택할 때 모델의 추론 요구 사항을 고려합니다. CPU 사용량을 모니터링합니다.
  • 교육. 학습 중에 CPU 및 GPU 사용량을 모두 모니터링하는 모델의 요구 사항을 고려합니다.
  • 작업 크기 조정. AI 워크로드에 대한 컴퓨팅 SKU를 고려할 때 작업의 크기를 고려합니다. 약 OPT 1.3B와 같은 더 작은 작업은 더 큰 SKU 크기를 활용하지 못할 수 있으며 작업의 단계(추론, 학습)에 따라 CPU 및 GPU 전원을 유휴 상태로 둘 수 있습니다.
  • 대역폭. 더 크고 낮은 대기 시간 대역폭은 활용되지 않을 때 비용이 발생할 수 있습니다. 추가 대역폭이 필요한 가장 큰 모델에 대해서만 InfiniBand를 고려합니다.

Azure의 GPU 최적화 가상 머신 크기를 봅니다.

예제: 에너지에 대한 개념 참조 아키텍처

다음 개념 참조 아키텍처는 에너지 환경에 대한 디자인 영역 및 모범 사례를 보여 주는 예제입니다.

Diagram that shows an example architecture for an energy environment, including compute, storage, subnets, a database, and a front end for on-premises users.

예제: 금융에 대한 개념 참조 아키텍처

다음 개념 참조 아키텍처는 재무 환경에 대한 디자인 영역 및 모범 사례를 보여 주는 예제입니다.

Diagram that shows an example architecture for a finance environment, including on-premises resources, virtual network, subnets, and network security groups.

예제: 제조를 위한 개념 참조 아키텍처

다음 개념 참조 아키텍처는 디자인 영역 및 제조 환경에 대한 모범 사례를 보여 주는 예제입니다.

Diagram that shows an example architecture for a manufacturing environment, including on-premises and cloud resources and an HPC landing zone.

HPC 랜딩 존 가속기 가져오기

HPC 랜딩 존 가속기는 GitHub: Azure HPC OnDemand 플랫폼 가속기에서 사용할 수 있습니다.

다음 단계

HPC 랜딩 존 가속기 아키텍처에 대한 고려 사항 및 권장 사항은 Azure ID 및 액세스 관리에서 HPC 랜딩 존 가속기의 중요한 디자인 영역을 검토합니다.