Udostępnij za pośrednictwem


Omówienie maszyny wirtualnej z serii HC

Dotyczy: ✔️ Maszyny wirtualne z systemem Linux Maszyny ✔️ wirtualne z systemem Windows ✔️ — elastyczne zestawy ✔️ skalowania

Maksymalizacja wydajności aplikacji HPC na procesorach Intel Xeon Scalable Wymaga przemyślanego podejścia do umieszczania procesów w tej nowej architekturze. W tym miejscu przedstawimy naszą implementację na maszynach wirtualnych z serii Azure HC dla aplikacji HPC. Użyjemy terminu "pNUMA", aby odwołać się do fizycznej domeny NUMA i "vNUMA", aby odwołać się do zwirtualizowanej domeny NUMA. Podobnie użyjemy terminu "pCore", aby odwoływać się do fizycznych rdzeni procesora CPU i "rdzeni wirtualnych", aby odwoływać się do zwirtualizowanych rdzeni procesora CPU.

Fizycznie serwer serii HC jest 2 * 24-rdzeniowy procesor Intel Xeon Platinum 8168 dla łącznie 48 rdzeni fizycznych. Każdy procesor CPU jest pojedynczą domeną pNUMA i ma ujednolicony dostęp do sześciu kanałów pamięci DRAM. Procesory Intel Xeon Platinum oferują 4 razy większą pamięć podręczną L2 niż w poprzednich generacjach (256 KB/rdzeń —> 1 MB/rdzeń), jednocześnie zmniejszając pamięć podręczną L3 w porównaniu z poprzednimi procesorami Intel (2,5 MB/rdzeń —> 1,375 MB/rdzeń).

Powyższa topologia przenosi również konfigurację funkcji hypervisor serii HC. Aby zapewnić miejsce na działanie funkcji hypervisor platformy Azure bez zakłócania działania maszyny wirtualnej, rezerwujemy rdzenie pCores 0-1 i 24-25 (czyli pierwsze 2 rdzenie na każdym gniazdach). Następnie przypisujemy domeny pNUMA wszystkie pozostałe rdzenie do maszyny wirtualnej. W związku z tym maszyna wirtualna zobaczy następujące elementy:

(2 vNUMA domains) * (22 cores/vNUMA) = 44 rdzenie na maszynę wirtualną

Maszyna wirtualna nie ma wiedzy, że rdzenie pCore 0-1 i 24-25 nie zostały mu podane. W związku z tym uwidacznia każdą vNUMA tak, jakby natywnie miała 22 rdzenie.

Procesory Intel Xeon Platinum, Gold i Silver również wprowadzają sieć siatki 2D na potrzeby komunikacji w obrębie gniazda procesora CPU i z zewnątrz. Zdecydowanie zalecamy przypinanie procesów w celu uzyskania optymalnej wydajności i spójności. Przypinanie procesów będzie działać na maszynach wirtualnych serii HC, ponieważ podstawowy krzem jest uwidoczniony w postaci maszyny wirtualnej gościa.

Na poniższym diagramie przedstawiono podział rdzeni zarezerwowanych dla funkcji Azure Hypervisor i maszyny wirtualnej serii HC.

Segregacja rdzeni zarezerwowanych dla maszyn wirtualnych z serii Azure Hypervisor i HC

Specyfikacje sprzętowe

Specyfikacje sprzętu Maszyna wirtualna serii HC
Rdzenie 44 (HT wyłączone)
Procesor CPU Intel Xeon Platinum 8168
Częstotliwość procesora CPU (inne niż AVX) 3,7 GHz (pojedynczy rdzeń), 2,7–3,4 GHz (wszystkie rdzenie)
Pamięć 8 GB/rdzeń (łącznie 352)
Dysk lokalny 700 GB DYSKÓW SSD
Infiniband 100 Gb EDR Mellanox ConnectX-5
Sieć Sieć Ethernet 50 Gb (40 Gb do użycia) druga karta sieciowa Azure Gen SmartNIC

Specyfikacje oprogramowania

Specyfikacje oprogramowania Maszyna wirtualna serii HC
Maksymalny rozmiar zadania MPI 13200 rdzeni (300 maszyn wirtualnych w jednym zestawie skalowania maszyn wirtualnych z singlePlacementGroup=true)
Obsługa interfejsu MPI HPC-X, Intel MPI, OpenMPI, MVAPICH2, MPICH, Platform MPII
Dodatkowe struktury UCX, libfabric, PGAS
Obsługa usługi Azure Storage Dyski w warstwie Standardowa i Premium (maksymalnie 4 dyski)
Obsługa systemu operacyjnego dla SRIOV RDMA RHEL 7.6+, Ubuntu 20.04+, SLES 15.4, WinServer 2016+
Obsługa programu Orchestrator CycleCloud, Batch, AKS; opcje konfiguracji klastra

Uwaga

Oficjalne wsparcie na poziomie jądra firmy AMD rozpoczyna się od RHEL 8.6 i AlmaLinux 8.6, który jest pochodną RHEL.

Następne kroki