Azure 인프라(IaaS)의 AI 워크로드에 대한 네트워킹 권장 사항
이 문서에서는 IaaS(Azure 인프라)에서 AI 워크로드를 실행하는 조직에 대한 네트워킹 권장 사항을 제공합니다. 잘 최적화된 네트워크를 설계하면 데이터 처리 속도를 향상시키고 대기 시간을 줄이며 증가하는 AI 요구 사항과 함께 네트워크 인프라가 확장되도록 할 수 있습니다.
충분한 대역폭 확인
충분한 대역폭은 지연 또는 중단 없이 대량의 데이터를 처리할 수 있는 네트워크의 용량을 나타냅니다. 높은 대역폭은 온-프레미스 시스템과 Azure 간에 빠르고 중단 없는 데이터 전송을 보장하여 신속한 AI 모델 학습을 지원하고 파이프라인의 가동 중지 시간을 줄입니다. AI 모델 학습을 위해 온-프레미스에서 클라우드로 큰 데이터 세트를 전송하는 조직의 경우 높은 대역폭 연결이 필수적입니다. Azure ExpressRoute를 사용하여 온-프레미스 네트워크와 Azure 간에 안전하고 안정적인 전용 고속 연결을 설정합니다.
대기 시간 최소화
대기 시간을 최소화하려면 네트워크 리소스 간의 데이터 전송 지연을 줄입니다. 대기 시간이 짧을수록 데이터 처리가 더 빨라지고 실시간 인사이트를 사용할 수 있으며 대기 시간에 민감한 워크로드의 성능이 향상됩니다.
리소스 배치를 최적화합니다. 데이터 전처리, 모델 학습 및 유추와 같은 AI 워크로드의 대기 시간을 최소화하려면 동일한 Azure 지역 또는 가용성 영역 내에 VM(가상 머신)을 배포합니다. 리소스를 공동 배치하면 물리적 거리가 줄어들어 네트워크 성능이 향상됩니다.
PPG(근접 배치 그룹)를 사용합니다. 실시간 처리 또는 빠른 프로세스 간 통신이 필요한 대기 시간에 민감한 워크로드의 경우 PPPG를 활용하여 Azure 데이터 센터 내에서 리소스를 물리적으로 공동 배치합니다. PPG는 컴퓨팅, 스토리지 및 네트워킹 리소스가 긴밀하게 유지되도록 하여 까다로운 워크로드에 대한 대기 시간을 최소화합니다. 오케스트레이션 솔루션 및 InfiniBand는 노드 근접성을 자동으로 처리합니다.
미리 구성된 Linux OS 이미지를 사용합니다. InfiniBand 드라이버, NVIDIA 드라이버, 통신 라이브러리 및 모니터링 도구를 사용하여 미리 패키지된 Azure Marketplace에서 Linux OS 이미지를 선택하여 클러스터 배포를 간소화합니다. 이러한 이미지는 성능에 최적화되어 있으며 빠르고 효율적인 클러스터 생성을 위해 Azure CycleCloud를 사용하여 배포할 수 있습니다.
고성능 네트워킹 구현
고성능 네트워킹은 고급 네트워킹 기능을 활용하여 특히 GPU 가속 작업에 대해 대규모의 집중적인 AI 계산을 지원합니다. 고성능 네트워크는 GPU 간의 신속하고 효율적인 데이터 교환을 보장하여 모델 학습을 최적화하고 AI 개발 주기를 가속화합니다.
GPU 워크로드에 InfiniBand를 활용합니다. 여러 GPU에서 GPU 가속 및 분산 학습에 종속된 워크로드의 경우 Azure의 InfiniBand 네트워크를 사용합니다. InfiniBand의 GPUDirect RDMA(원격 직접 메모리 액세스) 기능은 GPU 간 직접 통신을 지원합니다. 데이터 전송 속도와 모델 학습 효율성을 향상시킵니다. 적절한 VM SKU를 사용하는 경우 Azure CycleCloud 및 Azure Batch와 같은 오케스트레이션 솔루션은 InfiniBand 네트워크 구성을 처리합니다.
Azure의 GPU 최적화 VM을 선택합니다. 높은 대역폭, 짧은 대기 시간 간 GPU 통신을 위해 설계된 ND 시리즈 VM과 같이 InfiniBand를 사용하는 VM을 선택합니다. 이 구성은 확장 가능한 분산 학습 및 유추에 필수적이므로 GPU 간의 데이터 교환 속도가 빨라집니다.
대규모 데이터 처리 최적화
대규모 데이터 처리를 최적화하려면 광범위한 데이터 전송 및 높은 계산 부하를 관리하는 전략이 포함됩니다. 데이터 및 모델 병렬 처리를 사용하여 AI 워크로드의 크기를 조정하고 처리 속도를 향상시킬 수 있습니다. Azure의 GPU 최적화 가상 머신을 사용하여 복잡한 데이터 집약적 AI 워크로드를 처리합니다.
데이터 또는 모델 병렬 처리 기술을 적용합니다. 여러 GPU에서 광범위한 데이터 전송을 관리하려면 AI 워크로드 요구 사항에 따라 데이터 병렬 처리 또는 모델 병렬 처리를 구현합니다. 높은 대역폭, 낮은 전력 소비 및 컴팩트한 디자인으로 인해 고성능 워크로드에 적합한 HBM(고대역폭 메모리)을 사용해야 합니다. HBM은 대규모 데이터 세트를 처리해야 하는 AI 워크로드에 필수적인 빠른 데이터 처리를 지원합니다.
고급 GPU 네트워킹 기능을 사용합니다. 까다로운 AI 시나리오의 경우 NDH100v5 및 NDMI300Xv5와 같은 Azure VM을 선택합니다. Azure는 가상 머신 확장 집합 내에서 전용 400Gb/s NVIDIA Quantum-2 CX7 InfiniBand 연결을 사용하여 이러한 VM을 구성합니다. 이러한 연결은 GPU 직접 RDMA를 지원하여 대기 시간을 줄이고 전반적인 시스템 성능을 향상시키는 GPU 간 데이터 전송을 지원합니다.