Udostępnij za pośrednictwem


Partycjonowanie procesora GPU

Partycjonowanie procesora GPU umożliwia udostępnianie fizycznego urządzenia gpu z wieloma maszynami wirtualnymi. W przypadku partycjonowania procesora GPU lub wirtualizacji procesora GPU każda maszyna wirtualna otrzymuje dedykowany ułamek procesora GPU zamiast całego procesora GPU.

Funkcja partycjonowania procesora GPU używa interfejsu Single Root IO Virtualization (SR-IOV), który zapewnia sprzętowo wspieraną granicę bezpieczeństwa z przewidywalną wydajnością dla każdej maszyny wirtualnej. Każda maszyna wirtualna może uzyskiwać dostęp tylko do zasobów procesora GPU przeznaczonych dla nich, a bezpieczne partycjonowanie sprzętowe zapobiega nieautoryzowanemu dostępowi przez inne maszyny wirtualne.

System Windows Server wprowadza migrację na żywo z partycjonowaniem procesora GPU. Istnieją określone wymagania dotyczące używania migracji na żywo z partycjonowaniem GPU. Oprócz zalecanych najlepszych rozwiązań dotyczących migracji na żywo hosty klastra muszą mieć procesory obsługujące śledzenie bitów DMA (Input/Output Memory Management Unit, IOMMU). Na przykład procesory obsługujące Intel VT-D lub AMD-Vi. W przypadku korzystania z systemu Windows Server i migracji na żywo bez procesorów IOMMU maszyny wirtualne są automatycznie uruchamiane ponownie, gdy są dostępne zasoby procesora GPU.

Partycjonowanie procesora GPU jest przeznaczone dla serwerów autonomicznych. Maszyny wirtualne można migrować na żywo między samodzielnymi węzłami w przypadku planowanego przestoju; jednak dla klientów wymagających klastrowania w przypadku nieplanowanego przestoju należy użyć systemu Windows Server 2025 Datacenter.

Kiedy należy używać partycjonowania procesora GPU

Niektóre obciążenia, takie jak infrastruktura pulpitu wirtualnego (VDI), sztuczna inteligencja (AI) i wnioskowanie uczenia maszynowego (ML) wymagają przyspieszenia procesora GPU, partycjonowanie procesora GPU może pomóc zmniejszyć całkowity koszt posiadania całej infrastruktury.

Na przykład:

  • Aplikacje VDI: Klienci w środowiskach rozproszonych uruchamiają podstawowe aplikacje do zwiększania produktywności, takie jak pakiet Microsoft Office, oraz obciążenia wizualizacji wymagające dużej mocy graficznej w swoich środowiskach VDI, które wymagają przyspieszenia za pomocą GPU. W przypadku takich obciążeń można osiągnąć wymaganą akcelerację GPU przez DDA lub partycjonowanie GPU. Dzięki partycjonowaniu procesora GPU można utworzyć wiele partycji i przypisać każdą partycję do maszyny wirtualnej hostujące środowisko VDI. Partycjonowanie GPU pomaga osiągnąć żądaną gęstość i skalować liczbę obsługiwanych użytkowników o rząd wielkości.

  • Wnioskowanie z użyciem uczenia maszynowego: Klienci w sklepach detalicznych i zakładach produkcyjnych mogą uruchamiać wnioskowanie na krawędzi, co wymaga obsługi procesora graficznego (GPU) dla swoich serwerów. Korzystając z procesora GPU na serwerach, można uruchamiać modele uczenia maszynowego, aby uzyskać szybkie wyniki, które mogą być wykonywane przed wysłaniem danych do chmury. Pełny zestaw danych można opcjonalnie przenieść, aby kontynuować ponowne trenowanie i ulepszanie modeli uczenia maszynowego. Wraz z DDA, gdzie przypisujesz cały fizyczny procesor GPU do maszyny wirtualnej, partycjonowanie procesora GPU umożliwia równoległe uruchamianie wielu aplikacji wnioskowania na tym samym procesorze GPU, ale w oddzielnych partycjach fizycznych, dzięki czemu wykorzystanie procesora GPU do maksimum.

Obsługiwane systemy operacyjne dla gości

Partycjonowanie procesora GPU w systemie Windows Server 2025 lub nowszym obsługuje następujące systemy operacyjne gościa:

  • Windows 10 lub nowszy
  • Wielosesyjność systemu Windows 10 Enterprise lub nowszy
  • Windows Server 2019 lub nowszy
  • Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS, Linux Ubuntu 22.04 LTS

Obsługiwane procesory GPU

Następujące jednostki GPU obsługują partycjonowanie procesora GPU:

  • NVIDIA A2
  • NVIDIA A10
  • NVIDIA A16
  • NVIDIA A40
  • NVIDIA L2
  • NVIDIA L4
  • NVIDIA L40
  • NVIDIA L40S

Notatka

Sterownik NVIDIA nie obsługuje obecnie partycjonowania procesora GPU na potrzeby migracji na żywo.

Zalecamy pracę z partnerami producenta oryginalnego sprzętu (OEM) i niezależnymi od procesorów GPU dostawcami sprzętu (IHV) w celu planowania, zamawiania i konfigurowania systemów dla żądanych obciążeń przy użyciu odpowiednich konfiguracji i niezbędnego oprogramowania. Jednak obsługujemy więcej procesorów GPU, jeśli chcesz używać przyspieszania procesora GPU za pośrednictwem dyskretnego przypisania urządzenia (DDA). Skontaktuj się z partnerami OEM i niezależnymi producentami sprzętu, aby uzyskać listę procesorów GPU obsługujących DDA. Aby uzyskać więcej informacji na temat korzystania z przyspieszania procesora GPU za pośrednictwem DDA, zobacz Dyskretne przypisywanie urządzeń (DDA).

Aby uzyskać najlepszą wydajność, zalecamy utworzenie jednorodnej konfiguracji dla procesorów GPU na wszystkich serwerach w klastrze. Jednorodna konfiguracja składa się z instalowania tego samego make i modelu procesora GPU oraz konfigurowania tej samej liczby partycji w procesorach GPU na wszystkich serwerach w klastrze. Na przykład, w klastrze złożonym z dwóch serwerów, z zainstalowaną jedną lub większą liczbą jednostek GPU, wszystkie jednostki GPU muszą być tego samego producenta, modelu i rozmiaru. Liczba partycji dla każdego procesora GPU musi być również zgodna.

Ograniczenia

Podczas korzystania z funkcji partycjonowania procesora GPU należy wziąć pod uwagę następujące ograniczenia:

  • Partycjonowanie procesora GPU nie jest obsługiwane, jeśli konfiguracja nie jest jednorodna. Oto kilka przykładów nieobsługiwanych konfiguracji:

    • Mieszanie procesorów GPU od różnych dostawców w tym samym klastrze.

    • Korzystanie z różnych modeli procesora GPU z różnych rodzin produktów od tego samego dostawcy w tym samym klastrze.

  • Nie można przypisać fizycznego procesora GPU jako dyskretnego przypisania urządzenia (DDA) lub partycjonowalnego procesora GPU. Możesz przypisać go jako DDA lub jako partycjonowalny procesor GPU, ale nie oba naraz.

  • Do maszyny wirtualnej można przypisać tylko jedną partycję procesora GPU.

  • Partycje są automatycznie przypisywane do maszyn wirtualnych. Nie można wybrać określonej partycji dla określonej maszyny wirtualnej.

  • Procesor GPU można podzielić na partycje przy użyciu centrum administracyjnego systemu Windows lub programu PowerShell. Zalecamy używanie Centrum administracyjnego systemu Windows do konfigurowania i przypisywania partycji procesora GPU. Program Windows Admin Center automatycznie weryfikuje homogeniczną konfigurację procesorów GPU na wszystkich serwerach w klastrze. Zapewnia odpowiednie ostrzeżenia i błędy umożliwiające podjęcie wszelkich niezbędnych działań naprawczych.

  • W przypadku aprowizacji partycjonowania procesora GPU przy użyciu programu PowerShell należy wykonać kroki aprowizacji na każdym serwerze w klastrze. Należy ręcznie upewnić się, że jednorodna konfiguracja jest utrzymywana dla procesorów GPU na wszystkich serwerach w klastrze.

  • Podczas migracji na żywo maszyny wirtualnej z przypisaną partycją GPU, migracja na żywo Hyper-V zamiast tego automatycznie wykorzystuje protokół TCP/IP z kompresją. Migrowanie maszyny wirtualnej ma potencjalny wpływ na zwiększenie wykorzystania procesora CPU hosta. Ponadto migracje na żywo mogą trwać dłużej niż w przypadku maszyn wirtualnych bez dołączonych partycji procesora GPU.

Aby uzyskać więcej informacji na temat używania procesorów GPU z maszynami wirtualnymi i partycjonowaniem procesora GPU, zobacz: