Doporučení úložiště pro úlohy AI v infrastruktuře Azure (IaaS)
Tento článek obsahuje doporučení k úložišti pro organizace, které provozují úlohy AI v infrastruktuře Azure (IaaS). Řešení úložiště pro úlohy AI v infrastruktuře Azure musí být schopné spravovat požadavky na úložiště dat, přístup a přenos, které jsou součástí trénování a odvozování modelu AI.
Úlohy umělé inteligence vyžadují vysokou propustnost a nízkou latenci pro efektivní načítání a zpracování dat. Potřebují také mechanismy pro správu verzí dat a konzistenci, které zaručují přesné a reprodukovatelné výsledky napříč distribuovanými prostředími. Při výběru vhodného řešení úložiště zvažte faktory, jako jsou doby přenosu dat, latence, požadavky na výkon a kompatibilita s existujícími systémy.
Pro aktivní data použijte systém souborů. Implementujte systém souborů pro ukládání dat specifických pro úlohy nebo hot aktivně používaných nebo generovaných úlohami AI. Toto řešení je ideální pro zpracování dat v reálném čase z důvodu nízké latence a vysoké propustnosti. Tyto funkce jsou důležité pro optimalizaci výkonu pracovních postupů umělé inteligence. Azure má tři hlavní řešení systému souborů, která podporují trénování a odvozování modelů AI v infrastruktuře Azure. Pokud chcete zvolit správný systém souborů, postupujte podle těchto doporučení:
Používejte Spravovanou lustre Azure pro nejnižší časy přenosu dat a minimalizovanou latenci. Azure Managed Lustre poskytuje vysoký výkon s funkcemi paralelního systému souborů a zjednodušuje správu s integrací Azure. Je nákladově efektivní s náklady na úložiště na základě využití a umožňuje selektivní import dat ze služby Blob Storage a optimalizaci zpracování dat.
Azure NetApp Files používejte, když potřebujete funkce a výkon na podnikové úrovni pro úlohy AI. Azure NetApp Files nabízí vysokou spolehlivost a výkon, který je ideální pro klíčové aplikace. Azure NetApp Files je výhodné, pokud máte stávající investice do infrastruktury NetApp. Je výhodné pro hybridní cloudové funkce a kdy potřebujete přizpůsobit a doladit konfigurace úložiště.
Místní systémy souborů NVMe/SSD používejte v případech, kdy je nejvyšší prioritou výkon. Agreguje místní NVMe výpočetních (pracovních uzlů) pomocí paralelního systému souborů vyhrazeného pro úlohy, jako je BeeGFS On Demand (BeeOND). Pracují přímo na výpočetních uzlech, aby během úlohy vytvořily dočasný vysoce výkonný systém souborů. Tyto systémy nabízejí ultra nízkou latenci a vysokou propustnost, takže jsou ideální pro aplikace náročné na vstupně-výstupní operace, jako je trénování hlubokého učení nebo odvozování v reálném čase.
Přenos neaktivních dat do služby Azure Blob Storage Po dokončení úlohy přeneste neaktivní data úlohy ze služby Azure Managed Lustre do Azure Blob Storage pro dlouhodobé nákladově efektivní úložiště. Blob Storage poskytuje škálovatelné možnosti s různými úrovněmi přístupu, což zajišťuje efektivní ukládání neaktivních nebo zřídka používaných dat a přitom je v případě potřeby snadno dostupné.
Implementujte vytváření kontrolních bodů pro trénování modelu. Nastavte mechanismus kontrolního bodu, který ukládá stav modelu, včetně trénovacích váhy a parametrů, v pravidelných intervalech, například každých 500 iterací. Uložte tato data kontrolních bodů ve spravovaném lustre Azure, abyste umožnili restartování trénování modelu z dříve uloženého stavu, což zlepšuje flexibilitu a odolnost pracovních postupů AI.
Automatizujte migraci dat na nižší úrovně úložiště. Nakonfigurujte zásady správy životního cyklu služby Azure Blob Storage tak, aby automaticky migrovaly starší a zřídka přístupná data na nižší úrovně úložiště, jako jsou studené nebo archivní úrovně. Tento přístup optimalizuje náklady na úložiště a zároveň zajišťuje, aby důležitá data zůstala v případě potřeby přístupná.
Zajistěte konzistenci dat napříč distribuovanými prostředími. Zajistěte konzistenci dat napříč distribuovanými úlohami AI nastavením synchronizace mezi Spravovaným lustrem Azure a Službou Blob Storage. Tato synchronizace zajišťuje, že všechny uzly přistupující k datům pracují se stejnou konzistentní verzí a brání chybám a nesrovnalostem v distribuovaných prostředích.
Povolte správu verzí dat pro reprodukovatelnost. Aktivace správy verzí ve službě Azure Blob Storage za účelem sledování změn datových sad a modelů v průběhu času Tato funkce usnadňuje vrácení zpět, zlepšuje reprodukovatelnost a podporuje spolupráci. Udržuje podrobnou historii úprav dat a modelů a umožňuje podle potřeby porovnávat a obnovovat předchozí verze.