Netzwerkempfehlungen für KI-Workloads in der Azure-Infrastruktur (IaaS)
Dieser Artikel enthält Netzwerkempfehlungen für Organisationen, die KI-Workloads auf der Azure-Infrastruktur (IaaS) ausführen. Das Entwerfen eines gut optimierten Netzwerks kann die Datenverarbeitungsgeschwindigkeit verbessern, die Latenz reduzieren und sicherstellen, dass die Netzwerkinfrastruktur zusammen mit wachsenden KI-Anforderungen skaliert wird.
Sicherstellen der ausreichenden Bandbreite
Die ausreichende Bandbreite bezieht sich auf die Kapazität eines Netzwerks, um große Datenmengen ohne Verzögerungen oder Unterbrechungen zu verarbeiten. Hohe Bandbreite stellt eine schnelle, unterbrechungsfreie Datenübertragung zwischen lokalen Systemen und Azure sicher, unterstützt schnelle KI-Modellschulungen und reduziert Ausfallzeiten in der Pipeline. Für Organisationen, die große Datasets von der lokalen Bereitstellung in die Cloud für KI-Modellschulungen übertragen, ist eine Verbindung mit hoher Bandbreite unerlässlich. Verwenden Sie Azure ExpressRoute, um eine dedizierte, sichere und zuverlässige Hochgeschwindigkeitsverbindung zwischen Ihrem lokalen Netzwerk und Azure herzustellen.
Minimieren der Latenz
Die Minimierung der Latenz bedeutet, dass Verzögerungen bei der Datenübertragung zwischen netzwerkierten Ressourcen reduziert werden. Niedrigere Latenz bietet eine schnellere Datenverarbeitung, ermöglicht Echtzeiteinblicke und verbessert die Leistung von latenzempfindlichen Workloads.
Optimieren sie die Ressourcenplatzierung. Um die Latenz für KI-Workloads zu minimieren, z. B. Datenvorverarbeitung, Modellschulung und Rückschluss, stellen Sie virtuelle Computer (VMs) innerhalb derselben Azure-Region oder -Verfügbarkeitszone bereit. Durch das Colocating von Ressourcen wird die physische Entfernung reduziert, wodurch die Netzwerkleistung verbessert wird.
Verwenden Sie Näherungsplatzierungsgruppen (PpGs). Für Latenz-sensible Workloads, die eine Echtzeitverarbeitung oder schnelle Kommunikation zwischen Prozessen erfordern, verwenden Sie PPGs, um Ressourcen in einem Azure-Rechenzentrum physisch zu verlagern. PPGs stellen sicher, dass Compute-, Speicher- und Netzwerkressourcen eng zusammen bleiben, wodurch die Latenz für anspruchsvolle Workloads minimiert wird. Orchestrierungslösungen und InfiniBand behandeln die Knotennähe automatisch.
Verwenden Sie vorkonfigurierte Linux-Betriebssystemimages. Vereinfachen Sie die Clusterbereitstellung, indem Sie Linux-Betriebssystemimages aus dem vorab verpackten Azure Marketplace mit InfiniBand-Treibern, NVIDIA-Treibern, Kommunikationsbibliotheken und Überwachungstools auswählen. Diese Images sind für die Leistung optimiert und können mit Azure CycleCloud für schnelle, effiziente Clustererstellung bereitgestellt werden.
Implementieren von Hochleistungsnetzwerken
Hochleistungsnetzwerke nutzen erweiterte Netzwerkfeatures, um umfangreiche, intensive KI-Berechnungen zu unterstützen, insbesondere für GPU-beschleunigte Aufgaben. Hochleistungsnetzwerke sorgen für einen schnellen, effizienten Datenaustausch zwischen GPUs, wodurch Modellschulungen optimiert und KI-Entwicklungszyklen beschleunigt werden.
Verwenden Sie InfiniBand für GPU-Workloads. Verwenden Sie für Workloads, die von der GPU-Beschleunigung und verteilten Schulung über mehrere GPUs abhängig sind, das InfiniBand-Netzwerk von Azure. Die GPUDirect-Remotespeicherzugriffsfunktion (RDMA) von InfiniBand unterstützt die direkte GPU-zu-GPU-Kommunikation. Es verbessert die Geschwindigkeit der Datenübertragung und modellieren Sie die Schulungseffizienz. Orchestrierungslösungen wie Azure CycleCloud und Azure Batch verarbeiten die InfiniBand-Netzwerkkonfiguration, wenn Sie die entsprechenden VM-SKUs verwenden.
Wählen Sie die GPU-optimierten VMs von Azure aus. Wählen Sie VMs aus, die InfiniBand verwenden, z. B. VMs der ND-Serie, die für die Kommunikation zwischen GPU mit hoher Bandbreite und geringer Latenz ausgelegt sind. Diese Konfiguration ist für skalierbare verteilte Schulungen und Rückschlüsse unerlässlich, sodass ein schnellerer Datenaustausch zwischen GPUs möglich ist.
Optimieren der Datenverarbeitung im großen Maßstab
Die Optimierung für die groß angelegte Datenverarbeitung umfasst Strategien zum Verwalten umfangreicher Datenübertragungen und hoher Rechenlasten. Mithilfe der Daten- und Modellparallelität können Sie Ihre KI-Workloads skalieren und die Verarbeitungsgeschwindigkeit verbessern. Verwenden Sie die GPU-optimierten virtuellen Computer von Azure, um komplexe, datenintensive KI-Workloads zu verarbeiten.
Wenden Sie Daten- oder Modell-Parallelitätstechniken an. Um umfangreiche Datenübertragungen über mehrere GPUs hinweg zu verwalten, implementieren Sie Datenparallelität oder Modell-Parallelität, je nach Ihren ANFORDERUNGEN an Ihre KI-Workload. Stellen Sie sicher, dass hoher Bandbreitenspeicher (High Bandwidth Memory, HBM) verwendet wird, der aufgrund ihrer hohen Bandbreite, geringem Stromverbrauch und kompakter Konstruktion ideal für hochleistungsfähige Workloads geeignet ist. HBM unterstützt schnelle Datenverarbeitung, die für KI-Workloads unerlässlich ist, die eine Verarbeitung großer Datasets erfordern.
Verwenden Sie erweiterte GPU-Netzwerkfunktionen. Wählen Sie für anspruchsvolle KI-Szenarien Azure-VMs wie NDH100v5 und NDMI300Xv5 aus. Azure konfiguriert diese virtuellen Computer mit dedizierten 400 GB/s NVIDIA Quantum-2 CX7 InfiniBand-Verbindungen innerhalb von Skalierungssätzen virtueller Computer. Diese Verbindungen unterstützen GPU Direct RDMA und ermöglichen direkte GPU-zu-GPU-Datenübertragungen, die Latenz reduzieren und die Gesamtleistung des Systems verbessern.