Konfigurowanie rozwiązania InfiniBand
W tym artykule odwołuje się do systemu CentOS — dystrybucji systemu Linux, która zbliża się do stanu zakończenia życia (EOL). Rozważ odpowiednie użycie i zaplanuj. Aby uzyskać więcej informacji, zobacz wskazówki dotyczące zakończenia życia systemu CentOS.
Dotyczy: ✔️ Maszyny wirtualne z systemem Linux Maszyny ✔️ wirtualne z systemem Windows ✔️ — elastyczne zestawy ✔️ skalowania
Napiwek
Wypróbuj narzędzie selektora Maszyny wirtualne, aby znaleźć inne rozmiary, które najlepiej pasują do obciążenia.
W tym artykule przedstawiono niektóre informacje na temat wystąpień obsługujących funkcję RDMA, które mają być używane za pośrednictwem sieci InfiniBand (IB). Architektura sieci InfiniBand oferuje pełny projekt drzewa tłuszczu (to topologia sieci, która zapewnia wysoką przepustowość i małe opóźnienia), zapewniając nieblokujące, bisekcyjne symetrii. Ta konfiguracja zapewnia równą przepustowość między dowolnymi dwiema maszynami wirtualnymi w ramach tego samego zestawu skalowania maszyn wirtualnych (VMSS).
Wystąpienia z obsługą technologii RDMA
Większość rozmiarów maszyn wirtualnych HPC oferuje interfejs sieciowy umożliwiający łączność z zdalnym bezpośrednim dostępem do pamięci (RDMA). Wybrane rozmiary serii N oznaczone literą "r" są również wyposażone w funkcję RDMA. Ten interfejs jest dodatkiem do standardowego interfejsu sieciowego Sieci Ethernet platformy Azure dostępnego w innych rozmiarach maszyn wirtualnych.
Ten interfejs pomocniczy umożliwia wystąpieniom obsługującym funkcję RDMA komunikację za pośrednictwem sieci InfiniBand, działającej ze stawkami HDR dla HBv4, HBv3, HBv2, EDR dla kart HB, HC, HX, NDv2 i FDR dla H16r, H16mr i innych maszyn wirtualnych serii N obsługujących rdMA. Te funkcje RDMA mogą zwiększyć skalowalność i wydajność aplikacji opartych na interfejsie MPI (Message Passing Interface).
Uwaga
Obsługa funkcji SR-IOV: w usłudze Azure HPC obecnie istnieją dwie klasy maszyn wirtualnych w zależności od tego, czy są one włączone przez funkcję SR-IOV dla rozwiązania InfiniBand. Obecnie prawie wszystkie nowsze maszyny wirtualne obsługujące funkcję RDMA lub InfiniBand na platformie Azure są włączone z obsługą funkcji SR-IOV z wyjątkiem H16r, H16mr i NC24r. Funkcja RDMA jest włączona tylko przez sieć InfiniBand i jest obsługiwana dla wszystkich maszyn wirtualnych obsługujących funkcję RDMA. Adres IP za pośrednictwem IB jest obsługiwany tylko na maszynach wirtualnych z włączoną obsługą funkcji SR-IOV. Funkcja RDMA nie jest włączona za pośrednictwem sieci Ethernet.
System operacyjny — dystrybucje systemu Linux, takie jak CentOS, RHEL, AlmaLinux, Ubuntu, SUSE są często używane. System Windows Server 2016 i nowsze wersje są obsługiwane na wszystkich maszynach wirtualnych serii HPC. Należy pamiętać, że system Windows Server 2012 R2 nie jest obsługiwany w systemie HBv2, ponieważ rozmiary maszyn wirtualnych mają więcej niż 64 rdzenie (wirtualne lub fizyczne). Zobacz Obrazy maszyn wirtualnych, aby uzyskać listę obsługiwanych obrazów maszyn wirtualnych z systemem Linux w witrynie Azure Marketplace i sposób ich odpowiedniego konfigurowania. Odpowiednie strony rozmiaru maszyny wirtualnej zawierają również listę obsługi stosu oprogramowania.
InfiniBand i sterowniki — na maszynach wirtualnych z włączoną funkcją InfiniBand odpowiednie sterowniki są wymagane do włączenia funkcji RDMA. Zobacz włączanie funkcji InfiniBand , aby dowiedzieć się więcej na temat rozszerzeń maszyn wirtualnych lub ręcznej instalacji sterowników InfiniBand.
MPI — rozmiary maszyn wirtualnych z obsługą funkcji SR-IOV na platformie Azure umożliwiają korzystanie z mellanox OFED niemal dowolnego rodzaju interfejsu MPI. Aby uzyskać więcej informacji na temat konfigurowania interfejsu MPI na maszynach wirtualnych HPC na platformie Azure, zobacz Konfigurowanie interfejsu MPI dla obliczeń HPC .
Uwaga
Przestrzeń adresowa sieci RDMA: sieć RDMA na platformie Azure rezerwuje przestrzeń adresową 172.16.0.0/16. Aby uruchamiać aplikacje MPI na wystąpieniach wdrożonych w sieci wirtualnej platformy Azure, upewnij się, że przestrzeń adresowa sieci wirtualnej nie nakłada się na sieć RDMA.
Opcje konfiguracji klastra
Platforma Azure oferuje kilka opcji tworzenia klastrów maszyn wirtualnych HPC, które mogą komunikować się przy użyciu sieci RDMA, w tym:
Maszyny wirtualne — wdróż maszyny wirtualne HPC obsługujące funkcję RDMA w tym samym zestawie skalowania lub zestawie dostępności (w przypadku korzystania z modelu wdrażania usługi Azure Resource Manager). Jeśli używasz klasycznego modelu wdrażania, wdróż maszyny wirtualne w tej samej usłudze w chmurze.
Zestawy skalowania maszyn wirtualnych — w zestawie skalowania maszyn wirtualnych upewnij się, że wdrożenie jest ograniczane do pojedynczej grupy umieszczania dla komunikacji InfiniBand w zestawie skalowania. Na przykład w szablonie usługi Resource Manager ustaw
singlePlacementGroup
właściwość natrue
.
Należy pamiętać, że maksymalny rozmiar zestawu skalowania, za pomocą którego można przyspieszyć singlePlacementGroup=true
, jest domyślnie ograniczony do 100 maszyn wirtualnych. Jeśli wymagania dotyczące skalowania zadań HPC są wyższe niż 100 maszyn wirtualnych w jednej dzierżawie, możesz zażądać zwiększenia, otwórz żądanie pomocy technicznej online bez opłat. Limit liczby maszyn wirtualnych w jednym zestawie skalowania można zwiększyć do 300. Należy pamiętać, że podczas wdrażania maszyn wirtualnych przy użyciu zestawów dostępności maksymalny limit wynosi 200 maszyn wirtualnych na zestaw dostępności.
Ponadto usługa VMSS służy jako granica izolacji między obciążeniami w tym samym klastrze, zapewniając, że wystąpienia w różnych zestawach skalowania maszyn wirtualnych pozostają odizolowane od siebie w celu zagwarantowania bezpieczeństwa.
Uwaga
MpI między maszynami wirtualnymi: jeśli funkcja RDMA (np. przy użyciu komunikacji MPI) jest wymagana między maszynami wirtualnymi, upewnij się, że maszyny wirtualne znajdują się w tym samym zestawie skalowania maszyn wirtualnych lub zestawie dostępności.
Azure CycleCloud — tworzenie klastra HPC przy użyciu usługi Azure CycleCloud do uruchamiania zadań MPI.
Azure Batch — tworzenie puli usługi Azure Batch w celu uruchamiania obciążeń MPI. Aby używać wystąpień intensywnie korzystających z obliczeń podczas uruchamiania aplikacji MPI w usłudze Azure Batch, zobacz Używanie zadań obejmujących wiele wystąpień do uruchamiania aplikacji interfejsu MPI (Message Passing Interface) w usłudze Azure Batch.
Pakiet HPC Pack HPC Pack - firmy Microsoft zawiera środowisko uruchomieniowe ms-MPI, które korzysta z sieci Azure RDMA podczas wdrażania na maszynach wirtualnych z systemem Linux obsługujących funkcję RDMA. Na przykład wdrożenia można znaleźć w temacie Konfigurowanie klastra RDMA systemu Linux za pomocą pakietu HPC Pack w celu uruchamiania aplikacji MPI.
Uwagi dotyczące wdrażania
Subskrypcja platformy Azure — aby wdrożyć więcej niż kilka wystąpień intensywnie korzystających z obliczeń, rozważ subskrypcję z płatnością zgodnie z rzeczywistym użyciem lub inne opcje zakupu. Jeśli używasz bezpłatnego konta platformy Azure, możesz użyć ograniczonej liczby rdzeni obliczeniowych platformy Azure.
Cennik i dostępność — sprawdź cennik i dostępność maszyn wirtualnych według regionów świadczenia usługi Azure.
Limit przydziału rdzeni — może być konieczne zwiększenie limitu przydziału rdzeni w subskrypcji platformy Azure z wartości domyślnej. Twoja subskrypcja może również ograniczyć liczbę rdzeni, które można wdrożyć w niektórych rodzinach rozmiarów maszyn wirtualnych, w tym w serii H. Aby zażądać zwiększenia limitu przydziału, otwórz bezpłatnie żądanie obsługi klienta online. (Limity domyślne mogą się różnić w zależności od kategorii subskrypcji).
Uwaga
Skontaktuj się z pomocą techniczną platformy Azure, jeśli masz potrzeby dotyczące pojemności na dużą skalę. Limity przydziału platformy Azure to limity środków, a nie gwarancje pojemności. Niezależnie od limitu przydziału opłaty są naliczane tylko za używane rdzenie.
Sieć wirtualna — sieć wirtualna platformy Azure nie jest wymagana do korzystania z wystąpień intensywnie korzystających z obliczeń. Jednak w przypadku wielu wdrożeń potrzebujesz co najmniej sieci wirtualnej platformy Azure opartej na chmurze lub połączenia typu lokacja-lokacja, jeśli musisz uzyskać dostęp do zasobów lokalnych. W razie potrzeby utwórz nową sieć wirtualną, aby wdrożyć wystąpienia. Dodawanie maszyn wirtualnych intensywnie korzystających z obliczeń do sieci wirtualnej w grupie koligacji nie jest obsługiwane.
Zmiana rozmiaru — ze względu na wyspecjalizowany sprzęt można zmieniać rozmiar tylko wystąpień intensywnie korzystających z obliczeń w ramach tej samej rodziny rozmiarów (serii H lub N). Można na przykład zmienić rozmiar maszyny wirtualnej serii H tylko z jednego rozmiaru serii H na inną. Dodatkowe zagadnienia dotyczące obsługi sterowników InfiniBand i dysków NVMe mogą być brane pod uwagę w przypadku niektórych maszyn wirtualnych.
Następne kroki
- Dowiedz się więcej na temat konfigurowania maszyn wirtualnych, włączania rozwiązania InfiniBand, konfigurowania interfejsu MPI i optymalizowania aplikacji HPC dla platformy Azure na potrzeby obciążeń HPC.
- Zapoznaj się z omówieniem serii HBv3 i omówieniem serii HC.
- Przeczytaj o najnowszych ogłoszeniach, przykładach obciążeń HPC i wynikach wydajności na blogach społeczności technicznej usługi Azure Compute.
- Aby uzyskać widok architektury wyższego poziomu na potrzeby uruchamiania obciążeń HPC, zobacz Obliczenia o wysokiej wydajności (HPC) na platformie Azure.