다음을 통해 공유


GPU 분할

GPU 분할을 사용하면 여러 가상 머신 (VMs)과 물리적 GPU 디바이스를 공유할 수 있습니다. GPU 분할 또는 GPU 가상화를 사용하면 각 VM은 전체 GPU 대신 GPU의 전용 부분을 가져옵니다.

GPU 분할 기능은 각 VM에 대해 예측 가능한 성능으로 하드웨어 지원 보안 경계를 제공하는 단일 루트 IO 가상화 (SR-IOV) 인터페이스 를 사용합니다. 각 VM은 전용 GPU 리소스에만 액세스할 수 있으며 보안 하드웨어 분할은 다른 VM의 무단 액세스를 방지합니다.

Windows Server는 GPU 분할을 사용하여 실시간 마이그레이션을 도입합니다. GPU 분할 실시간 마이그레이션을 사용하기 위한 특정 요구 사항이 있습니다. 권장되는 실시간 마이그레이션 모범 사례 외에도 클러스터 호스트에는 Input/Output Memory Management Unit (IOMMU) DMA 비트 추적 가능 프로세서가 있어야 합니다. 예를 들어 Intel VT-D 또는 AMD-Vi를 지원하는 프로세서입니다. IOMMU 사용 프로세서 없이 Windows Server 및 실시간 마이그레이션을 사용할 경우, GPU 리소스를 사용할 수 있는 경우 VM이 자동으로 다시 시작됩니다.

GPU 분할은 독립 실행형 서버를 위해 설계되었습니다. 계획된 가동 중지 시간을 위해 독립 실행형 노드 간에 VM을 실시간 마이그레이션할 수 있습니다. 그러나 계획되지 않은 가동 중지 시간을 위해 클러스터링이 필요한 고객의 경우 Windows Server 2025 Datacenter를 사용해야 합니다.

GPU 분할을 사용하는 경우

가상 데스크톱 인프라 (VDI), 인공 지능 (AI) 및 머신 러닝 (ML) 추론과 같은 일부 워크로드는 GPU 가속이 필요하며, GPU 분할은 전체 인프라에 대한 총 소유 비용을 줄이는 데 도움이 될 수 있습니다.

예시:

  • VDI 애플리케이션: 분산 에지 고객은 GPU 가속이 필요한 VDI 환경에서 Microsoft Office 및 그래픽이 많은 시각화 워크로드와 같은 기본 생산성 앱을 실행합니다. 이러한 워크로드의 경우 DDA 또는 GPU 분할을 통해 필요한 GPU 가속을 달성할 수 있습니다. GPU 분할을 사용하면 여러 파티션을 만들고 각 파티션을 VDI 환경을 호스팅하는 VM에 할당할 수 있습니다. GPU 분할을 사용하면 원하는 밀도를 달성하고 지원되는 사용자 수를 크기 순으로 조정할 수 있습니다.

  • ML 유추: 소매점 및 제조 공장의 고객은 에지에서 유추를 실행할 수 있으므로 서버에 대한 GPU 지원이 필요합니다. 서버에서 GPU를 사용하여 ML 모델을 실행하여 데이터가 클라우드로 전송되기 전에 수행할 수 있는 빠른 결과를 얻을 수 있습니다. ML 모델을 계속 다시 학습시키고 개선할 수 있도록 필요에 따라 전체 데이터 집합을 전송할 수 있습니다. VM에 전체 물리적 GPU를 할당하는 DDA와 함께 GPU 분할을 사용하면 동일한 GPU에서 여러 추론 애플리케이션을 병렬로 실행할 수 있지만 별도의 물리적 파티션에서 GPU를 최대값으로 활용할 수 있습니다.

지원되는 게스트 운영 체제

Windows Server 2025 이상에서 GPU 분할은 다음과 같은 게스트 운영 체제를 지원합니다.

  • Windows 10 이상
  • Windows 10 엔터프라이즈 다중 세션 이상
  • Windows Server 2019 이상
  • Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS, Linux Ubuntu 22.04 LTS

지원되는 GPU

다음 GPU는 GPU 분할을 지원합니다.

  • NVIDIA A2
  • NVIDIA A10
  • NVIDIA A16
  • NVIDIA A40
  • NVIDIA L2
  • NVIDIA L4
  • NVIDIA L40
  • NVIDIA L40S

참고 항목

NVIDIA 드라이버는 현재 실시간 마이그레이션을 위한 GPU 분할을 지원하지 않습니다.

원래 장비 제조업체 (OEM) 파트너 및 GPU 독립 하드웨어 공급업체 (IHVs)와 협력하여 적절한 구성 및 필요한 소프트웨어를 사용하여 원하는 워크로드에 대한 시스템을 계획, 주문 및 설정하는 것이 좋습니다. 그러나 불연속 디바이스 할당 (DDA)를 통해 GPU 가속을 사용하려는 경우 더 많은 GPU를 지원합니다. OEM 파트너 및 IHV에 문의하여 DDA를 지원하는 GPU 목록을 가져옵니다. DDA를 통해 GPU 가속을 사용하는 방법에 대한 자세한 내용은 불연속 디바이스 할당 (DDA)를 참조하세요.

최상의 성능을 위해 클러스터의 모든 서버에서 GPU에 대한 동질적인 구성을 만드는 것이 좋습니다. 같은 유형의 구성은 GPU의 동일한 메이크 및 모델을 설치하고 클러스터의 모든 서버에서 GPU에서 동일한 파티션 수를 구성하는 것으로 구성됩니다. 예를 들어 하나 이상의 GPU가 설치된 두 서버의 클러스터에서 모든 GPU는 동일한 메이크, 모델 및 크기를 가져야 합니다. 각 GPU의 파티션 수도 일치해야 합니다.

제한 사항

GPU 분할 기능을 사용하는 경우 다음과 같은 제한 사항을 고려합니다.

  • 구성이 동질적이지 않으면 GPU 분할이 지원되지 않습니다. 다음은 지원되지 않는 구성의 몇 가지 예입니다.

    • 동일한 클러스터의 여러 공급업체에서 GPU를 혼합합니다.

    • 동일한 클러스터에 있는 동일한 공급업체의 여러 제품 제품군에서 다른 GPU 모델을 사용합니다.

  • 실제 GPU를 불연속 디바이스 할당 (DDA) 또는 분할 가능한 GPU로 할당할 수 없습니다. DDA 또는 분할 가능한 GPU로 할당할 수 있지만 둘 다 할당할 수는 없습니다.

  • VM에 단일 GPU 파티션만 할당할 수 있습니다.

  • 파티션은 VM에 자동으로 할당됩니다. 특정 VM에 대한 특정 파티션을 선택할 수 없습니다.

  • Windows Admin Center 또는 PowerShell을 사용하여 GPU를 분할할 수 있습니다. Windows Admin Center를 사용하여 GPU 파티션을 구성하고 할당하는 것이 좋습니다. Windows Admin Center는 클러스터의 모든 서버에서 GPU의 균일한 구성에 대해 자동으로 유효성을 검사합니다. 필요한 모든 수정 작업을 수행하는 데 적절한 경고 및 오류를 제공합니다.

  • PowerShell을 사용하여 GPU 분할을 프로비전하는 경우 클러스터의 각 서버에서 프로비전 단계를 수행해야 합니다. 클러스터의 모든 서버에서 GPU에 대해 균일한 구성이 유지 관리되는지 수동으로 확인해야 합니다.

  • GPU 파티션이 할당된 가상 머신을 실시간 마이그레이션하는 경우 Hyper-V 라이브 마이그레이션은 자동으로 압축과 함께 TCP/IP를 사용하는 것으로 돌아갑니다. 가상 머신을 마이그레이션하면 호스트의 CPU 사용률이 증가할 가능성이 있습니다. 또한 GPU 파티션이 연결되지 않은 가상 머신보다 실시간 마이그레이션이 더 오래 걸릴 수 있습니다.

VM 및 GPU 분할에서 GPU를 사용하는 방법에 대한 자세한 내용은 다음을 참조하세요.