Doporučení pro sítě pro úlohy AI v infrastruktuře Azure (IaaS)
Tento článek obsahuje doporučení pro sítě pro organizace, které provozují úlohy AI v infrastruktuře Azure (IaaS). Návrh dobře optimalizované sítě může zvýšit rychlost zpracování dat, snížit latenci a zajistit škálování síťové infrastruktury společně s rostoucími požadavky na AI.
Zajištění dostatečné šířky pásma
Dostatečná šířka pásma odkazuje na kapacitu sítě pro zpracování velkých objemů dat bez zpoždění nebo přerušení. Vysoká šířka pásma zajišťuje rychlý a nepřerušovaný přenos dat mezi místními systémy a Azure, což podporuje rychlé trénování modelů AI a snižuje prostoje v kanálu. Pro organizace, které přenášejí velké datové sady z místního prostředí do cloudu pro trénování modelu AI, je nezbytné připojení s velkou šířkou pásma. Použijte Azure ExpressRoute k vytvoření vyhrazeného, zabezpečeného a spolehlivého vysokorychlostního připojení mezi vaší místní sítí a Azure.
Minimalizace latence
Minimalizace latence zahrnuje snížení zpoždění při přenosu dat mezi síťovými prostředky. Nižší latence poskytuje rychlejší zpracování dat, umožňuje přehledy v reálném čase a zlepšuje výkon úloh citlivých na latenci.
Optimalizujte umístění prostředků. Pokud chcete minimalizovat latenci úloh umělé inteligence, jako jsou předběžné zpracování dat, trénování modelu a odvozování, nasaďte virtuální počítače v rámci stejné oblasti Azure nebo zóny dostupnosti. Společné přidělení prostředků snižuje fyzickou vzdálenost, což zlepšuje výkon sítě.
Používejte skupiny umístění bezkontaktní komunikace (PPG). V případě úloh citlivých na latenci, které vyžadují zpracování v reálném čase nebo rychlou komunikaci mezi procesy, využijte PPG k fyzickému společnému přidělení prostředků v datacentru Azure. Skupiny PPG zajišťují, aby výpočetní, úložné a síťové prostředky zůstaly blízko sebe a minimalizovaly latenci náročných úloh. Řešení orchestrace a infiniBand zpracovávají vzdálenost uzlů automaticky.
Použijte předkonfigurované image operačního systému Linux. Zjednodušte nasazení clusteru výběrem imagí operačního systému Linux z předbaleného balíčku Azure Marketplace s ovladači InfiniBand, ovladači NVIDIA, komunikačními knihovnami a monitorovacími nástroji. Tyto image jsou optimalizované pro výkon a je možné je nasadit pomocí Azure CycleCloudu pro rychlé a efektivní vytváření clusteru.
Implementace vysoce výkonných sítí
Vysoce výkonné sítě využívají pokročilé síťové funkce pro podporu rozsáhlých náročných výpočtů AI, zejména pro akcelerované úlohy GPU. Vysoce výkonné sítě zajišťují rychlé a efektivní výměny dat mezi grafickými procesory, které optimalizují trénování modelů a urychlují vývojové cykly AI.
Využijte InfiniBand pro úlohy GPU. Pro úlohy závislé na akceleraci GPU a distribuovaném trénování napříč několika gpu použijte síť InfiniBand v Azure. Funkce vzdáleného přímého přístupu do paměti (RDMA) infiniBand podporuje přímou komunikaci GPU na GPU. Zlepšuje rychlost přenosu dat a efektivitu trénování modelů. Řešení orchestrace, jako je Azure CycleCloud a Azure Batch, zpracovávají konfiguraci sítě InfiniBand při použití příslušných skladových položek virtuálních počítačů.
Zvolte virtuální počítače optimalizované pro GPU v Azure. Vyberte virtuální počítače, které používají InfiniBand, jako jsou virtuální počítače řady ND, které jsou navržené pro komunikaci mezi GPU s vysokou šířkou pásma a nízkou latencí. Tato konfigurace je nezbytná pro škálovatelné distribuované trénování a odvozování, což umožňuje rychlejší výměnu dat mezi gpu.
Optimalizace pro zpracování velkých objemů dat
Optimalizace pro zpracování velkých objemů dat zahrnuje strategie správy rozsáhlých přenosů dat a vysokého výpočetního zatížení. Pomocí paralelismu dat a modelů můžete škálovat úlohy umělé inteligence a zvýšit rychlost zpracování. Využijte virtuální počítače optimalizované pro GPU Azure ke zpracování složitých úloh AI náročných na data.
Použití technik paralelismu dat nebo modelu Pokud chcete spravovat rozsáhlé přenosy dat napříč několika gpu, implementujte paralelismus dat nebo paralelismus modelu v závislosti na potřebách úloh umělé inteligence. Zajistěte použití paměti s velkou šířkou pásma (HBM), která je ideální pro vysoce výkonné úlohy kvůli vysoké šířce pásma, nízké spotřebě energie a kompaktnímu návrhu. HBM podporuje rychlé zpracování dat, které jsou nezbytné pro úlohy umělé inteligence, které vyžadují zpracování velkých datových sad.
Používejte pokročilé síťové funkce GPU. Pro náročné scénáře AI zvolte virtuální počítače Azure, jako jsou NDH100v5 a NDMI300Xv5. Azure tyto virtuální počítače konfiguruje s vyhrazenými připojeními NVIDIA Quantum-2 CX7 InfiniBand 400 Gb/s v rámci škálovacích sad virtuálních počítačů. Tato připojení podporují přímý přímý přístup RDMA GPU, což umožňuje přímé přenosy dat GPU na GPU, které snižují latenci a zvyšují celkový výkon systému.