다음을 통해 공유


Azure 인프라(IaaS)의 AI 워크로드에 대한 관리 권장 사항

이 문서에서는 IaaS(Azure 인프라)에서 AI 워크로드를 실행하는 조직에 대한 관리 권장 사항을 제공합니다. Azure에서 AI 워크로드를 효과적으로 관리하려면 지속적인 모니터링, 최적화 사례 및 강력한 백업 및 복구 전략이 필요합니다. 이러한 노력은 가동 중지 시간을 최소화하고 AI 작업의 안정성을 보장합니다.

AI 인프라 모니터링

AI 인프라 모니터링에는 Azure IaaS에서 AI 배포의 모든 구성 요소의 성능, 상태 및 가용성을 추적하고 평가하는 작업이 포함됩니다. 사전 모니터링을 통해 조직은 운영에 영향을 미치기 전에 잠재적인 문제를 감지하고 해결할 수 있습니다.

  • 기본적으로 모니터링을 확인합니다. Azure Arc에 연결된 서버를 포함하여 가상 머신 및 Azure Virtual Machine Scale Sets에 필요한 Azure Monitor 에이전트를 배포합니다. 관리 구독의 중앙 Log Analytics 작업 영역에 연결합니다. AMBA(Azure Monitor 기준 경고)를 사용하는 것이 좋습니다.

  • Azure Update Manager를 사용합니다. 단일 관리 창에서 Azure 및 온-프레미스/기타 클라우드 플랫폼(Azure Arc로 연결됨)의 컴퓨터 전체에서 Windows 및 Linux 업데이트 준수를 모니터링할 수 있습니다. 또한 업데이트 관리자를 사용하여 실시간 업데이트를 수행하거나 정의된 유지 관리 기간 내에서 업데이트를 예약할 수 있습니다.

  • 가상 머신을 모니터링합니다. VM(가상 머신) 호스트 데이터(물리적 호스트) 및 VM 게스트 데이터(운영 체제 및 애플리케이션)를 모니터링 합니다. VM Insights를 사용하여 온보딩을 간소화하고, 미리 정의된 성능 차트에 액세스하고, 종속성 매핑을 활용하는 것이 좋습니다. 스폿 VM 제거 및 유지 관리 이벤트를 추적하여 중단을 효과적으로 관리합니다. 예약된 이벤트에 대해 자세히 알아봅니다.

  • 네트워크를 모니터링합니다. VM에 로그인하지 않고 네트워킹 문제를 모니터링하고 진단합니다. 패킷 수준에서 실시간 성능 정보를 가져옵니다. 성능 진단 도구를 사용하여 성능 문제를 해결합니다. 배포된 모든 네트워크 리소스에 대한 토폴로지, 상태 및 메트릭을 추적 합니다.

  • 스토리지를 모니터링합니다. 로컬 SSD, 연결된 디스크, 파일 공유 및 Azure Storage 계정과 같은 스토리지의 성능을 모니터링합니다.

  • 오케스트레이터 모니터링 기능을 사용합니다(해당하는 경우). Azure CycleCloud, Azure Batch 및 AKS(Azure Kubernetes Service)와 같은 오케스트레이터의 기본 제공 모니터링 기능을 사용하는 것이 좋습니다. 선택한 오케스트레이터에 대한 지침을 따릅니다.

    • Slurm용 Azure CycleCloud 또는 Azure CycleCloud 작업 영역: CPU, 디스크 및 네트워크 메트릭을 추적합니다. Azure CycleCloud 클러스터에서 Log Analytics로 데이터를 저장하고 사용자 지정 메트릭 대시보드를 만듭니다. 자세한 내용은 Azure CycleCloud 모니터링을 참조 하세요. 노드 상태 검사는 HPC/AI 하드웨어가 정상 상태인지 확인하기 위한 자동화된 테스트 집합입니다. 클러스터 배포의 일부로 또는 GitHub 리포지토리 지침을 사용하여 별도로 Azure CycleCloud에서 이 검사를 실행할 수 있습니다. 설명서의 호환성 매트릭스에 주의해야 합니다. 적절한 경우 실행하여 AI 워크로드를 실행하기 전에 비정상 노드를 식별하도록 합니다.

    • Azure Batch: 활성 작업, 작업 기간, 작업 시작 시간, 기간, 작업 시작 시간과 같은 작업 및 작업 메트릭을 수집합니다. 또한 유휴 노드, 실행 중인 노드, CPU 사용량, 디스크 I/O와 같은 풀 메트릭을 수집합니다. 자세한 내용은 Azure Batch 모니터링을 참조 하세요.

    • Azure Kubernetes Service. 컨테이너에 Azure Monitor를 사용합니다. Pod 성능, 노드 상태 및 리소스 사용률을 모니터링합니다. 경고 및 사용자 지정 대시보드를 설정합니다.

비즈니스 연속성 및 재해 복구 관리

Azure에서 AI 애플리케이션에 대한 비즈니스 연속성 및 재해 복구를 관리하면 조직이 중단으로부터 신속하게 복구할 수 있습니다. 조직은 실시간 복제, 자동화된 복구 및 정기적인 백업과 같은 전략을 구현하여 데이터 손실 및 운영 가동 중지 시간으로부터 AI 인프라를 보호합니다.

  • Azure Site Recovery를 사용합니다. Site Recovery는 실시간 복제 및 복구 자동화를 사용하여 지역 간에 워크로드를 복제합니다. VM 워크로드에 대한 기본 제공 플랫폼 기능은 낮은 RPO 및 RTO 요구 사항을 충족합니다. Site Recovery를 사용하여 프로덕션 워크로드에 영향을 주지 않고 복구 훈련을 실행할 수 있습니다. Azure Policy를 사용하여 복제를 활성화하고 VM 보호를 감사할 수도 있습니다.

  • 오케스트레이터 기능을 사용합니다(해당하는 경우). 오케스트레이터를 사용하여 실패한 컴퓨팅 노드를 복구합니다. 예를 들어 오류가 있는 경우 작업을 자동으로 다시 시도 하도록 Azure Batch를 구성합니다.

  • 백업을 예약합니다. 데이터 세트 및 모델에 대한 증분 변경 내용을 매일 또는 매주 백업해야 하는지 확인합니다. 백업에는 데이터베이스 또는 전체 데이터 세트가 포함될 수도 있습니다.

  • 데이터 준수를 확인합니다. 백업 전략이 데이터 보호 규정을 준수하는지 확인합니다. 데이터 보존 요구 사항을 준수하고 적절한 지리적 위치에 백업을 저장합니다.

  • 스냅샷을 만듭니다. 스케줄러의 기능을 사용하여 스냅샷을 만들 수 있습니다. 예를 들어 CycleCloud 는 기본 애플리케이션 데이터 저장소의 지정 시간 스냅샷을 복구 지점으로 만들 수 있습니다.

다음 단계