Azure 인프라의 AI 워크로드에 대한 스토리지 권장 사항(IaaS)
이 문서에서는 IaaS(Azure 인프라)에서 AI 워크로드를 실행하는 조직에 대한 스토리지 권장 사항을 제공합니다. Azure 인프라의 AI 워크로드에 대한 스토리지 솔루션은 AI 모델 학습 및 추론에 내재된 데이터 스토리지, 액세스 및 전송의 요구를 관리할 수 있어야 합니다.
AI 워크로드에는 효율적인 데이터 검색 및 처리를 위해 높은 처리량과 짧은 대기 시간이 필요합니다. 또한 분산 환경에서 정확하고 재현 가능한 결과를 보장하기 위해 데이터 버전 관리 및 일관성을 위한 메커니즘이 필요합니다. 적절한 스토리지 솔루션을 선택할 때는 데이터 전송 시간, 대기 시간, 성능 요구 사항 및 기존 시스템과의 호환성 등의 요소를 고려합니다.
활성 데이터에 파일 시스템을 사용합니다. AI 작업에서 적극적으로 사용하거나 생성한 "작업별/핫" 데이터를 저장하는 파일 시스템을 구현합니다. 이 솔루션은 짧은 대기 시간 및 높은 처리량 기능으로 인해 실시간 데이터 처리에 적합합니다. 이러한 기능은 AI 워크플로의 성능을 최적화하는 데 중요합니다. Azure에는 Azure 인프라에서 AI 모델 학습 및 추론을 지원하는 세 가지 주요 파일 시스템 솔루션이 있습니다. 올바른 파일 시스템을 선택하려면 다음 권장 사항을 따르세요.
가장 낮은 데이터 전송 시간과 최소화된 대기 시간에 Azure Managed Lustre를 사용합니다. Azure Managed Lustre는 병렬 파일 시스템 기능으로 고성능을 제공하고 Azure 통합을 사용하여 관리를 간소화합니다. 사용량 기반 스토리지 비용을 통해 비용 효율적이며 Blob Storage에서 선택적 데이터를 가져와 데이터 처리를 최적화할 수 있습니다.
AI 워크로드에 엔터프라이즈급 기능 및 성능이 필요한 경우 Azure NetApp Files를 사용합니다. Azure NetApp Files는 중요 업무용 애플리케이션에 이상적인 높은 안정성과 성능을 제공합니다. Azure NetApp Files는 NetApp 인프라에 대한 기존 투자가 있는 경우 유용합니다. 하이브리드 클라우드 기능과 스토리지 구성을 사용자 지정하고 미세 조정해야 하는 경우에 유용합니다.
성능이 최우선인 경우 로컬 NVMe/SSD 파일 시스템을 사용합니다. BeeOND(BeeOND)와 같은 작업 전용 병렬 파일 시스템을 사용하여 컴퓨팅(작업자 노드)의 로컬 NVMe를 집계합니다. 컴퓨팅 노드에서 직접 작동하여 작업 중에 임시 고성능 파일 시스템을 만듭니다. 이러한 시스템은 매우 짧은 대기 시간과 높은 처리량을 제공하므로 딥 러닝 학습 또는 실시간 추론과 같은 I/O 집약적 애플리케이션에 이상적입니다.
비활성 데이터를 Azure Blob Storage로 전송합니다. 작업을 완료한 후 장기적이고 비용 효율적인 스토리지를 위해 비활성 작업 데이터를 Azure Managed Lustre에서 Azure Blob Storage로 전송합니다. Blob Storage는 다양한 액세스 계층으로 확장 가능한 옵션을 제공하여 비활성 또는 자주 액세스되지 않는 데이터의 효율적인 스토리지를 보장하면서 필요할 때 쉽게 사용할 수 있도록 합니다.
모델 학습에 대한 검사점을 구현합니다. 500회 반복마다와 같이 정기적으로 학습 가중치 및 매개 변수를 포함하여 모델의 상태를 저장하는 검사점 메커니즘을 설정합니다. 이전에 저장된 상태에서 모델 학습을 다시 시작하여 AI 워크플로의 유연성과 복원력을 향상할 수 있도록 이 검사점 데이터를 Azure Managed Lustre에 저장합니다.
저비용 스토리지 계층으로 데이터 마이그레이션을 자동화합니다. 오래된 자주 액세스하지 않는 데이터를 쿨 또는 보관 계층과 같은 저렴한 스토리지 계층으로 자동으로 마이그레이션하도록 Azure Blob Storage 수명 주기 관리 정책을 구성합니다. 이 방법은 스토리지 비용을 최적화하는 동시에 필요한 경우 중요한 데이터에 계속 액세스할 수 있도록 합니다.
분산 환경에서 데이터 일관성을 보장합니다. Azure Managed Lustre와 Azure Blob Storage 간의 동기화를 설정하여 분산 AI 워크로드 간에 데이터 일관성을 보장합니다. 이 동기화를 통해 데이터에 액세스하는 모든 노드가 동일한 일관된 버전으로 작동하여 분산 환경에서 오류 및 불일치를 방지할 수 있습니다.
재현성을 위해 데이터 버전 관리 사용 Azure Blob Storage에서 버전 관리 활성화를 통해 시간에 따른 데이터 세트 및 모델의 변경 내용을 추적합니다. 이 기능은 롤백을 용이하게 하고, 재현성을 향상시키며, 공동 작업을 지원합니다. 데이터 및 모델에 대한 자세한 수정 기록을 유지 관리하며 필요에 따라 이전 버전을 비교하고 복원할 수 있습니다.