Freigeben über


Speicherempfehlungen für KI-Workloads in der Azure-Infrastruktur (IaaS)

Dieser Artikel enthält Speicherempfehlungen für Organisationen, die KI-Workloads (künstliche Intelligenz) in der Azure-Infrastruktur (Infrastructure-as-a-Service, IaaS) ausführen. Eine Speicherlösung für KI-Workloads in der Azure-Infrastruktur muss in der Lage sein, die mit dem KI-Modelltraining und -rückschluss einhergehenden Anforderungen an Datenspeicherung, -zugriff und -übertragung zu bewältigen.

KI-Workloads erfordern für den effizienten Datenabruf und die effiziente Datenverarbeitung einen hohen Durchsatz und eine geringe Latenz. Außerdem benötigen sie Mechanismen für die Datenversionsverwaltung und -konsistenz, um genaue und reproduzierbare Ergebnisse in verteilten Umgebungen zu gewährleisten. Berücksichtigen Sie bei der Auswahl der geeigneten Speicherlösung Faktoren wie Datenübertragungszeiten, Latenz, Leistungsanforderungen und Kompatibilität mit vorhandenen Systemen.

  • Verwenden Sie ein Dateisystem für aktive Daten. Implementieren Sie ein Dateisystem zum Speichern von „auftragsspezifischen/heißen” Daten, die aktiv von KI-Aufträgen verwendet oder generiert werden. Diese Lösung eignet sich aufgrund der geringen Latenz und des hohen Durchsatzes ideal für die Datenverarbeitung in Echtzeit. Diese Funktionen sind entscheidend für die Optimierung der Leistung von KI-Workflows. Azure bietet drei wichtige Dateisystemlösungen, die das Training und Rückschließen von KI-Modellen in der Azure-Infrastruktur unterstützen. Befolgen Sie diese Empfehlungen, um das richtige Dateisystem auszuwählen:

    • Verwenden Sie Azure Managed Lustre, um von den niedrigsten Datenübertragungszeiten und minimierter Latenz zu profitieren. Azure Managed Lustre bietet hohe Leistung mit den Funktionen eines parallelen Dateisystems und vereinfacht die Verwaltung durch die Azure-Integration. Das Lustre-Dateisystem ist dank nutzungsbasierter Speicherkosten kostengünstig und ermöglicht den selektiven Datenimport aus Blob Storage, wodurch die Datenverarbeitung optimiert wird.

    • Verwenden Sie Azure NetApp Files, wenn Sie Features und Leistung der Enterprise-Klasse für KI-Workloads benötigen. Azure NetApp Files bietet eine hohe Zuverlässigkeit und Leistung und eignet sich ideal für unternehmenskritische Anwendungen. Der Azure NetApp Files-Dienst ist von Vorteil, wenn Sie bereits in eine NetApp-Infrastruktur investiert haben. Er ist vorteilhaft für Hybrid Cloud-Funktionen und in Fällen, in denen Sie Speicherkonfigurationen anpassen und optimieren müssen.

    • Verwenden Sie lokale NVMe-/SSD (Solid State Drive)-Dateisysteme, wenn die Leistung für Sie oberste Priorität hat. Diese Systeme aggregieren den lokalen NVMe-Speicher von Compute (Workerknoten) mit einem auftragsbezogenen parallelen Dateisystem wie BeeGFS On Demand (BeeOND). Sie werden direkt auf den Computeknoten ausgeführt, um während des Auftrags ein temporäres Hochleistungsdateisystem zu erstellen. Diese Systeme bieten eine extrem niedrige Latenz und einen hohen Durchsatz und eignen sich daher ideal für E/A-intensive Anwendungen wie Deep Learning-Training oder Echtzeitrückschlüsse.

  • Übertragen Sie inaktive Daten in Azure Blob Storage. Übertragen Sie inaktive Auftragsdaten nach dem Abschluss eines Auftrags zur langfristigen und kostengünstigen Speicherung von Azure Managed Lustre in Azure Blob Storage. Blob Storage bietet skalierbare Optionen mit unterschiedlichen Zugriffsebenen, die eine effiziente Speicherung inaktiver oder selten verwendeter Daten sicherstellen und gleichzeitig dafür sorgen, dass die Daten bei Bedarf schnell verfügbar sind.

  • Implementieren Sie die Erstellung von Prüfpunkten für das Modelltraining. Richten Sie einen Prüfpunktmechanismus ein, der den Zustand des Modells, einschließlich der Trainingsgewichtungen und -parameter, in regelmäßigen Abständen speichert (z. B. alle 500 Iterationen). Speichern Sie diese Prüfpunktdaten in Azure Managed Lustre, um das Neustarten des Modelltrainings von einem zuvor gespeicherten Zustand zu ermöglichen und so die Flexibilität und Resilienz Ihrer KI-Workflows zu verbessern.

  • Automatisieren Sie die Datenmigration zu kostengünstigeren Speicherebenen. Konfigurieren Sie Richtlinien für die Azure Blob Storage-Lebenszyklusverwaltung, um ältere, selten verwendete Daten automatisch zu kostengünstigeren Speicherebenen wie „Kalt“ oder „Archiv“ zu migrieren. Dieser Ansatz optimiert die Speicherkosten und stellt gleichzeitig sicher, dass wichtige Daten bei Bedarf zugänglich sind.

  • Stellen Sie die Datenkonsistenz in verteilten Umgebungen sicher. Stellen Sie die Datenkonsistenz über verteilte KI-Workloads hinweg sicher, indem Sie die Synchronisierung zwischen Azure Managed Lustre und Azure Blob Storage einrichten. Diese Synchronisierung stellt sicher, dass alle Knoten, die auf die Daten zugreifen, dieselbe konsistente Version verwenden, wodurch Fehler und Diskrepanzen in verteilten Umgebungen verhindert werden.

  • Aktivieren Sie die Datenversionsverwaltung, um die Reproduzierbarkeit zu gewährleisten. Aktivieren Sie die Versionsverwaltung in Azure Blob Storage, um Änderungen an Datasets und Modellen im Laufe der Zeit nachzuverfolgen. Dieses Feature erleichtert Rollbacks, verbessert die Reproduzierbarkeit und unterstützt die Zusammenarbeit. Es speichert einen detaillierten Verlauf der Änderungen an Daten und Modellen und ermöglicht es Ihnen, frühere Versionen zu vergleichen und bei Bedarf wiederherzustellen.

Nächster Schritt