Sdílet prostřednictvím


Doporučení pro sítě pro úlohy AI v infrastruktuře Azure (IaaS)

Tento článek obsahuje doporučení pro sítě pro organizace, které provozují úlohy AI v infrastruktuře Azure (IaaS). Návrh dobře optimalizované sítě může zvýšit rychlost zpracování dat, snížit latenci a zajistit škálování síťové infrastruktury společně s rostoucími požadavky na AI.

Zajištění dostatečné šířky pásma

Dostatečná šířka pásma odkazuje na kapacitu sítě pro zpracování velkých objemů dat bez zpoždění nebo přerušení. Vysoká šířka pásma zajišťuje rychlý a nepřerušovaný přenos dat mezi místními systémy a Azure, což podporuje rychlé trénování modelů AI a snižuje prostoje v kanálu. Pro organizace, které přenášejí velké datové sady z místního prostředí do cloudu pro trénování modelu AI, je nezbytné připojení s velkou šířkou pásma. Použijte Azure ExpressRoute k vytvoření vyhrazeného, zabezpečeného a spolehlivého vysokorychlostního připojení mezi vaší místní sítí a Azure.

Minimalizace latence

Minimalizace latence zahrnuje snížení zpoždění při přenosu dat mezi síťovými prostředky. Nižší latence poskytuje rychlejší zpracování dat, umožňuje přehledy v reálném čase a zlepšuje výkon úloh citlivých na latenci.

  • Optimalizujte umístění prostředků. Pokud chcete minimalizovat latenci úloh umělé inteligence, jako jsou předběžné zpracování dat, trénování modelu a odvozování, nasaďte virtuální počítače v rámci stejné oblasti Azure nebo zóny dostupnosti. Společné přidělení prostředků snižuje fyzickou vzdálenost, což zlepšuje výkon sítě.

  • Používejte skupiny umístění bezkontaktní komunikace (PPG). V případě úloh citlivých na latenci, které vyžadují zpracování v reálném čase nebo rychlou komunikaci mezi procesy, využijte PPG k fyzickému společnému přidělení prostředků v datacentru Azure. Skupiny PPG zajišťují, aby výpočetní, úložné a síťové prostředky zůstaly blízko sebe a minimalizovaly latenci náročných úloh. Řešení orchestrace a infiniBand zpracovávají vzdálenost uzlů automaticky.

  • Použijte předkonfigurované image operačního systému Linux. Zjednodušte nasazení clusteru výběrem imagí operačního systému Linux z předbaleného balíčku Azure Marketplace s ovladači InfiniBand, ovladači NVIDIA, komunikačními knihovnami a monitorovacími nástroji. Tyto image jsou optimalizované pro výkon a je možné je nasadit pomocí Azure CycleCloudu pro rychlé a efektivní vytváření clusteru.

Implementace vysoce výkonných sítí

Vysoce výkonné sítě využívají pokročilé síťové funkce pro podporu rozsáhlých náročných výpočtů AI, zejména pro akcelerované úlohy GPU. Vysoce výkonné sítě zajišťují rychlé a efektivní výměny dat mezi grafickými procesory, které optimalizují trénování modelů a urychlují vývojové cykly AI.

  • Využijte InfiniBand pro úlohy GPU. Pro úlohy závislé na akceleraci GPU a distribuovaném trénování napříč několika gpu použijte síť InfiniBand v Azure. Funkce vzdáleného přímého přístupu do paměti (RDMA) infiniBand podporuje přímou komunikaci GPU na GPU. Zlepšuje rychlost přenosu dat a efektivitu trénování modelů. Řešení orchestrace, jako je Azure CycleCloud a Azure Batch, zpracovávají konfiguraci sítě InfiniBand při použití příslušných skladových položek virtuálních počítačů.

  • Zvolte virtuální počítače optimalizované pro GPU v Azure. Vyberte virtuální počítače, které používají InfiniBand, jako jsou virtuální počítače řady ND, které jsou navržené pro komunikaci mezi GPU s vysokou šířkou pásma a nízkou latencí. Tato konfigurace je nezbytná pro škálovatelné distribuované trénování a odvozování, což umožňuje rychlejší výměnu dat mezi gpu.

Optimalizace pro zpracování velkých objemů dat

Optimalizace pro zpracování velkých objemů dat zahrnuje strategie správy rozsáhlých přenosů dat a vysokého výpočetního zatížení. Pomocí paralelismu dat a modelů můžete škálovat úlohy umělé inteligence a zvýšit rychlost zpracování. Využijte virtuální počítače optimalizované pro GPU Azure ke zpracování složitých úloh AI náročných na data.

  • Použití technik paralelismu dat nebo modelu Pokud chcete spravovat rozsáhlé přenosy dat napříč několika gpu, implementujte paralelismus dat nebo paralelismus modelu v závislosti na potřebách úloh umělé inteligence. Zajistěte použití paměti s velkou šířkou pásma (HBM), která je ideální pro vysoce výkonné úlohy kvůli vysoké šířce pásma, nízké spotřebě energie a kompaktnímu návrhu. HBM podporuje rychlé zpracování dat, které jsou nezbytné pro úlohy umělé inteligence, které vyžadují zpracování velkých datových sad.

  • Používejte pokročilé síťové funkce GPU. Pro náročné scénáře AI zvolte virtuální počítače Azure, jako jsou NDH100v5 a NDMI300Xv5. Azure tyto virtuální počítače konfiguruje s vyhrazenými připojeními NVIDIA Quantum-2 CX7 InfiniBand 400 Gb/s v rámci škálovacích sad virtuálních počítačů. Tato připojení podporují přímý přímý přístup RDMA GPU, což umožňuje přímé přenosy dat GPU na GPU, které snižují latenci a zvyšují celkový výkon systému.

Další krok