Azure 인프라(IaaS)의 AI 워크로드에 대한 관리 권장 사항
이 문서에서는 IaaS(Azure 인프라)에서 AI 워크로드를 실행하는 조직에 대한 관리 권장 사항을 제공합니다. Azure에서 AI 워크로드를 효과적으로 관리하려면 지속적인 모니터링, 최적화 사례 및 강력한 백업 및 복구 전략이 필요합니다. 이러한 노력은 가동 중지 시간을 최소화하고 AI 작업의 안정성을 보장합니다.
AI 인프라 모니터링
AI 인프라 모니터링에는 Azure IaaS에서 AI 배포의 모든 구성 요소의 성능, 상태 및 가용성을 추적하고 평가하는 작업이 포함됩니다. 사전 모니터링을 통해 조직은 운영에 영향을 미치기 전에 잠재적인 문제를 감지하고 해결할 수 있습니다.
기본적으로 모니터링을 확인합니다. Azure Arc에 연결된 서버를 포함하여 가상 머신 및 Azure Virtual Machine Scale Sets에 필요한 Azure Monitor 에이전트를 배포합니다. 관리 구독의 중앙 Log Analytics 작업 영역에 연결합니다. AMBA(Azure Monitor 기준 경고)를 사용하는 것이 좋습니다.
Azure Update Manager를 사용합니다. 단일 관리 창에서 Azure 및 온-프레미스/기타 클라우드 플랫폼(Azure Arc로 연결됨)의 컴퓨터 전체에서 Windows 및 Linux 업데이트 준수를 모니터링할 수 있습니다. 또한 업데이트 관리자를 사용하여 실시간 업데이트를 수행하거나 정의된 유지 관리 기간 내에서 업데이트를 예약할 수 있습니다.
가상 머신을 모니터링합니다. VM(가상 머신) 호스트 데이터(물리적 호스트) 및 VM 게스트 데이터(운영 체제 및 애플리케이션)를 모니터링 합니다. VM Insights를 사용하여 온보딩을 간소화하고, 미리 정의된 성능 차트에 액세스하고, 종속성 매핑을 활용하는 것이 좋습니다. 스폿 VM 제거 및 유지 관리 이벤트를 추적하여 중단을 효과적으로 관리합니다. 예약된 이벤트에 대해 자세히 알아봅니다.
네트워크를 모니터링합니다. VM에 로그인하지 않고 네트워킹 문제를 모니터링하고 진단합니다. 패킷 수준에서 실시간 성능 정보를 가져옵니다. 성능 진단 도구를 사용하여 성능 문제를 해결합니다. 배포된 모든 네트워크 리소스에 대한 토폴로지, 상태 및 메트릭을 추적 합니다.
스토리지를 모니터링합니다. 로컬 SSD, 연결된 디스크, 파일 공유 및 Azure Storage 계정과 같은 스토리지의 성능을 모니터링합니다.
오케스트레이터 모니터링 기능을 사용합니다(해당하는 경우). Azure CycleCloud, Azure Batch 및 AKS(Azure Kubernetes Service)와 같은 오케스트레이터의 기본 제공 모니터링 기능을 사용하는 것이 좋습니다. 선택한 오케스트레이터에 대한 지침을 따릅니다.
Slurm용 Azure CycleCloud 또는 Azure CycleCloud 작업 영역: CPU, 디스크 및 네트워크 메트릭을 추적합니다. Azure CycleCloud 클러스터에서 Log Analytics로 데이터를 저장하고 사용자 지정 메트릭 대시보드를 만듭니다. 자세한 내용은 Azure CycleCloud 모니터링을 참조 하세요. 노드 상태 검사는 HPC/AI 하드웨어가 정상 상태인지 확인하기 위한 자동화된 테스트 집합입니다. 클러스터 배포의 일부로 또는 GitHub 리포지토리 지침을 사용하여 별도로 Azure CycleCloud에서 이 검사를 실행할 수 있습니다. 설명서의 호환성 매트릭스에 주의해야 합니다. 적절한 경우 실행하여 AI 워크로드를 실행하기 전에 비정상 노드를 식별하도록 합니다.
Azure Batch: 활성 작업, 작업 기간, 작업 시작 시간, 기간, 작업 시작 시간과 같은 작업 및 작업 메트릭을 수집합니다. 또한 유휴 노드, 실행 중인 노드, CPU 사용량, 디스크 I/O와 같은 풀 메트릭을 수집합니다. 자세한 내용은 Azure Batch 모니터링을 참조 하세요.
Azure Kubernetes Service. 컨테이너에 Azure Monitor를 사용합니다. Pod 성능, 노드 상태 및 리소스 사용률을 모니터링합니다. 경고 및 사용자 지정 대시보드를 설정합니다.
비즈니스 연속성 및 재해 복구 관리
Azure에서 AI 애플리케이션에 대한 비즈니스 연속성 및 재해 복구를 관리하면 조직이 중단으로부터 신속하게 복구할 수 있습니다. 조직은 실시간 복제, 자동화된 복구 및 정기적인 백업과 같은 전략을 구현하여 데이터 손실 및 운영 가동 중지 시간으로부터 AI 인프라를 보호합니다.
Azure Site Recovery를 사용합니다. Site Recovery는 실시간 복제 및 복구 자동화를 사용하여 지역 간에 워크로드를 복제합니다. VM 워크로드에 대한 기본 제공 플랫폼 기능은 낮은 RPO 및 RTO 요구 사항을 충족합니다. Site Recovery를 사용하여 프로덕션 워크로드에 영향을 주지 않고 복구 훈련을 실행할 수 있습니다. Azure Policy를 사용하여 복제를 활성화하고 VM 보호를 감사할 수도 있습니다.
오케스트레이터 기능을 사용합니다(해당하는 경우). 오케스트레이터를 사용하여 실패한 컴퓨팅 노드를 복구합니다. 예를 들어 오류가 있는 경우 작업을 자동으로 다시 시도 하도록 Azure Batch를 구성합니다.
백업을 예약합니다. 데이터 세트 및 모델에 대한 증분 변경 내용을 매일 또는 매주 백업해야 하는지 확인합니다. 백업에는 데이터베이스 또는 전체 데이터 세트가 포함될 수도 있습니다.
데이터 준수를 확인합니다. 백업 전략이 데이터 보호 규정을 준수하는지 확인합니다. 데이터 보존 요구 사항을 준수하고 적절한 지리적 위치에 백업을 저장합니다.
스냅샷을 만듭니다. 스케줄러의 기능을 사용하여 스냅샷을 만들 수 있습니다. 예를 들어 CycleCloud 는 기본 애플리케이션 데이터 저장소의 지정 시간 스냅샷을 복구 지점으로 만들 수 있습니다.