Omówienie maszyny wirtualnej z serii HC
Dotyczy: ✔️ Maszyny wirtualne z systemem Linux Maszyny ✔️ wirtualne z systemem Windows ✔️ — elastyczne zestawy ✔️ skalowania
Maksymalizacja wydajności aplikacji HPC na procesorach Intel Xeon Scalable Wymaga przemyślanego podejścia do umieszczania procesów w tej nowej architekturze. W tym miejscu przedstawimy naszą implementację na maszynach wirtualnych z serii Azure HC dla aplikacji HPC. Użyjemy terminu "pNUMA", aby odwołać się do fizycznej domeny NUMA i "vNUMA", aby odwołać się do zwirtualizowanej domeny NUMA. Podobnie użyjemy terminu "pCore", aby odwoływać się do fizycznych rdzeni procesora CPU i "rdzeni wirtualnych", aby odwoływać się do zwirtualizowanych rdzeni procesora CPU.
Fizycznie serwer serii HC jest 2 * 24-rdzeniowy procesor Intel Xeon Platinum 8168 dla łącznie 48 rdzeni fizycznych. Każdy procesor CPU jest pojedynczą domeną pNUMA i ma ujednolicony dostęp do sześciu kanałów pamięci DRAM. Procesory Intel Xeon Platinum oferują 4 razy większą pamięć podręczną L2 niż w poprzednich generacjach (256 KB/rdzeń —> 1 MB/rdzeń), jednocześnie zmniejszając pamięć podręczną L3 w porównaniu z poprzednimi procesorami Intel (2,5 MB/rdzeń —> 1,375 MB/rdzeń).
Powyższa topologia przenosi również konfigurację funkcji hypervisor serii HC. Aby zapewnić miejsce na działanie funkcji hypervisor platformy Azure bez zakłócania działania maszyny wirtualnej, rezerwujemy rdzenie pCores 0-1 i 24-25 (czyli pierwsze 2 rdzenie na każdym gniazdach). Następnie przypisujemy domeny pNUMA wszystkie pozostałe rdzenie do maszyny wirtualnej. W związku z tym maszyna wirtualna zobaczy następujące elementy:
(2 vNUMA domains) * (22 cores/vNUMA) = 44
rdzenie na maszynę wirtualną
Maszyna wirtualna nie ma wiedzy, że rdzenie pCore 0-1 i 24-25 nie zostały mu podane. W związku z tym uwidacznia każdą vNUMA tak, jakby natywnie miała 22 rdzenie.
Procesory Intel Xeon Platinum, Gold i Silver również wprowadzają sieć siatki 2D na potrzeby komunikacji w obrębie gniazda procesora CPU i z zewnątrz. Zdecydowanie zalecamy przypinanie procesów w celu uzyskania optymalnej wydajności i spójności. Przypinanie procesów będzie działać na maszynach wirtualnych serii HC, ponieważ podstawowy krzem jest uwidoczniony w postaci maszyny wirtualnej gościa.
Na poniższym diagramie przedstawiono podział rdzeni zarezerwowanych dla funkcji Azure Hypervisor i maszyny wirtualnej serii HC.
Specyfikacje sprzętowe
Specyfikacje sprzętu | Maszyna wirtualna serii HC |
---|---|
Rdzenie | 44 (HT wyłączone) |
Procesor CPU | Intel Xeon Platinum 8168 |
Częstotliwość procesora CPU (inne niż AVX) | 3,7 GHz (pojedynczy rdzeń), 2,7–3,4 GHz (wszystkie rdzenie) |
Pamięć | 8 GB/rdzeń (łącznie 352) |
Dysk lokalny | 700 GB DYSKÓW SSD |
Infiniband | 100 Gb EDR Mellanox ConnectX-5 |
Sieć | Sieć Ethernet 50 Gb (40 Gb do użycia) druga karta sieciowa Azure Gen SmartNIC |
Specyfikacje oprogramowania
Specyfikacje oprogramowania | Maszyna wirtualna serii HC |
---|---|
Maksymalny rozmiar zadania MPI | 13200 rdzeni (300 maszyn wirtualnych w jednym zestawie skalowania maszyn wirtualnych z singlePlacementGroup=true) |
Obsługa interfejsu MPI | HPC-X, Intel MPI, OpenMPI, MVAPICH2, MPICH, Platform MPII |
Dodatkowe struktury | UCX, libfabric, PGAS |
Obsługa usługi Azure Storage | Dyski w warstwie Standardowa i Premium (maksymalnie 4 dyski) |
Obsługa systemu operacyjnego dla SRIOV RDMA | RHEL 7.6+, Ubuntu 20.04+, SLES 15.4, WinServer 2016+ |
Obsługa programu Orchestrator | CycleCloud, Batch, AKS; opcje konfiguracji klastra |
Uwaga
Oficjalne wsparcie na poziomie jądra firmy AMD rozpoczyna się od RHEL 8.6 i AlmaLinux 8.6, który jest pochodną RHEL.
Następne kroki
- Dowiedz się więcej o architekturze intel Xeon SP.
- Przeczytaj o najnowszych ogłoszeniach, przykładach obciążeń HPC i wynikach wydajności na blogach społeczności technicznej usługi Azure Compute.
- Aby uzyskać widok architektury wyższego poziomu na potrzeby uruchamiania obciążeń HPC, zobacz Obliczenia o wysokiej wydajności (HPC) na platformie Azure.