Udostępnij za pośrednictwem


Zalecenia dotyczące magazynu dla obciążeń sztucznej inteligencji w infrastrukturze platformy Azure (IaaS)

Ten artykuł zawiera zalecenia dotyczące magazynu dla organizacji z obciążeniami sztucznej inteligencji w infrastrukturze platformy Azure (IaaS). Rozwiązanie magazynu dla obciążeń sztucznej inteligencji w infrastrukturze platformy Azure musi być w stanie zarządzać wymaganiami dotyczącymi magazynu danych, dostępu i transferu, które są związane z trenowaniem i wnioskowaniem modelu sztucznej inteligencji.

Obciążenia sztucznej inteligencji wymagają wysokiej przepływności i małych opóźnień w celu wydajnego pobierania i przetwarzania danych. Potrzebują również mechanizmów przechowywania wersji danych i spójności, aby zagwarantować dokładne i powtarzalne wyniki w środowiskach rozproszonych. Podczas wybierania odpowiedniego rozwiązania magazynu należy wziąć pod uwagę czynniki, takie jak czas transferu danych, opóźnienie, wymagania dotyczące wydajności i zgodność z istniejącymi systemami.

  • Użyj systemu plików dla aktywnych danych. Zaimplementuj system plików do przechowywania danych "specyficznych dla zadania/gorąca" aktywnie używanych lub generowanych przez zadania sztucznej inteligencji. To rozwiązanie jest idealne do przetwarzania danych w czasie rzeczywistym ze względu na małe opóźnienia i możliwości wysokiej przepływności. Te możliwości mają kluczowe znaczenie dla optymalizacji wydajności przepływów pracy sztucznej inteligencji. Platforma Azure ma trzy główne rozwiązania systemu plików do obsługi trenowania i wnioskowania modeli sztucznej inteligencji w infrastrukturze platformy Azure. Aby wybrać właściwy system plików, wykonaj następujące zalecenia:

    • Użyj rozwiązania Azure Managed Lustre, aby uzyskać najmniejsze czasy transferu danych i zminimalizowane opóźnienie. Usługa Azure Managed Lustre zapewnia wysoką wydajność dzięki równoległym funkcjom systemu plików i upraszcza zarządzanie integracją platformy Azure. Jest to opłacalne, z kosztami magazynu opartymi na użyciu i umożliwia selektywne importowanie danych z usługi Blob Storage, optymalizowanie obsługi danych.

    • Użyj usługi Azure NetApp Files, gdy potrzebujesz funkcji klasy korporacyjnej i wydajności obciążeń sztucznej inteligencji. Usługa Azure NetApp Files oferuje wysoką niezawodność i wydajność, idealną dla aplikacji o krytycznym znaczeniu. Usługa Azure NetApp Files jest korzystna, jeśli masz istniejące inwestycje w infrastrukturę usługi NetApp. Jest to korzystne w przypadku funkcji chmury hybrydowej oraz dostosowywania i dostosowywania konfiguracji magazynu.

    • Użyj lokalnych systemów plików NVMe/SSD, gdy wydajność jest priorytetem. Agreguje lokalne urządzenie NVMe zasobów obliczeniowych (węzłów procesu roboczego) przy użyciu dedykowanego równoległego systemu plików, takiego jak BeeGFS On Demand (BeeOND). Działają one bezpośrednio w węzłach obliczeniowych, aby utworzyć tymczasowy system plików o wysokiej wydajności podczas wykonywania zadania. Systemy te oferują bardzo małe opóźnienia i wysoką przepływność, co czyni je idealnym rozwiązaniem dla aplikacji intensywnie korzystających z operacji we/wy, takich jak trenowanie uczenia głębokiego lub wnioskowanie w czasie rzeczywistym.

  • Transfer nieaktywnych danych do usługi Azure Blob Storage. Po zakończeniu zadania przenieś nieaktywne dane zadania z usługi Azure Managed Lustre do usługi Azure Blob Storage w celu długoterminowego, ekonomicznego magazynu. Usługa Blob Storage oferuje skalowalne opcje z różnymi warstwami dostępu, zapewniając wydajne przechowywanie nieaktywnych lub rzadko używanych danych, zachowując jednocześnie łatwo dostępne w razie potrzeby.

  • Implementowanie punktów kontrolnych na potrzeby trenowania modelu. Skonfiguruj mechanizm tworzenia punktów kontrolnych, który zapisuje stan modelu, w tym wagi treningowe i parametry, w regularnych odstępach czasu, takich jak co 500 iteracji. Przechowuj te dane punktu kontrolnego w usłudze Azure Managed Lustre, aby umożliwić ponowne uruchomienie trenowania modelu z wcześniej zapisanego stanu, co zwiększa elastyczność i odporność przepływów pracy sztucznej inteligencji.

  • Automatyzowanie migracji danych do warstw magazynowania o niższych kosztach. Skonfiguruj zasady zarządzania cyklem życia usługi Azure Blob Storage, aby automatycznie migrować starsze, rzadko używane dane do warstw magazynowania o niższych kosztach, takich jak warstwy Chłodna lub Archiwum. Takie podejście optymalizuje koszty magazynowania przy jednoczesnym zapewnieniu, że ważne dane pozostają dostępne w razie potrzeby.

  • Zapewnianie spójności danych w środowiskach rozproszonych. Zapewnij spójność danych w rozproszonych obciążeniach sztucznej inteligencji, konfigurując synchronizację między usługą Azure Managed Lustre i usługą Azure Blob Storage. Ta synchronizacja gwarantuje, że wszystkie węzły, które uzyskują dostęp do danych, współpracują z tą samą, spójną wersją, zapobiegając błędom i rozbieżnościom w środowiskach rozproszonych.

  • Włącz przechowywanie wersji danych w celu odtworzenia. Aktywowanie przechowywania wersji w usłudze Azure Blob Storage w celu śledzenia zmian w zestawach danych i modelach w czasie. Ta funkcja ułatwia wycofywanie, zwiększa powtarzalność i obsługuje współpracę. Utrzymuje szczegółową historię modyfikacji danych i modeli i umożliwia porównywanie i przywracanie poprzednich wersji zgodnie z potrzebami.

Następny krok