Azure 인프라(IaaS)의 AI 워크로드에 대한 거버넌스 권장 사항
이 문서에서는 IaaS(Azure 인프라)에서 AI 워크로드를 실행하는 조직에 대한 거버넌스 권장 사항을 제공합니다. 이러한 권장 사항은 조직이 리소스 관리, 비용 제어, 보안 및 운영 효율성을 위한 구조화된 프레임워크를 설정하는 데 도움이 됩니다. 이러한 사례를 따르면 AI 워크로드를 책임감 있게 확장하고 규정 준수, 보안 및 재무 목표를 충족하는지 확인할 수 있습니다.
리소스 거버넌스
리소스 거버넌스는 Azure 리소스를 관리하기 위한 규칙 및 표준을 설정합니다. 조직은 거버넌스 정책을 적용하여 규정 준수를 보장하고, 리소스 사용을 표준화하고, 비용을 제어할 수 있으며, 이는 AI 운영의 책임 있는 스케일링을 지원합니다.
태그 사용을 적용합니다. Azure Policy를 사용하여 리소스 위치, 허용된 SKU 및 필수 태그와 같은 규칙을 적용합니다. 예를 들어 특정 고비용 VM의 배포를 제한하는 정책을 만들어 예산을 효과적으로 관리할 수 있습니다.
거버넌스 정책을 적용하여 규정 준수 및 표준화를 보장합니다. Azure Policy를 사용하여 리소스 위치, 허용된 SKU 및 필수 태그와 같은 규칙을 적용합니다. 예를 들어 예산을 제어하기 위해 특정 고비용 VM의 배포를 제한하는 정책을 만듭니다.
수명 주기 관리에 리소스 그룹을 사용합니다. 일반적인 수명 주기를 공유하는 리소스 그룹 내에 AI 리소스를 배포합니다. 리소스 그룹을 사용하면 리소스를 전체적으로 배포, 구성 및 삭제할 수 있습니다. 또한 추가 거버넌스(정책), 보안(RBAC) 및 비용(예산) 경계를 제공합니다.
명명 규칙을 표준화합니다. AI 리소스에 대한 표준화된 명명 규칙을 구현합니다. 이렇게 하면 추적 및 관리가 향상됩니다. 각 Azure 리소스에 대한 명명 규칙 및 제한을 사용하고 권장되는 약어를 따릅니다. 많은 리소스에 이름 길이 제한이 있는 경우가 많습니다.
인프라를 코드로 제어합니다. 클라우드용 Microsoft Defender 사용하여 IaC 보안을 모니터링하고 적용합니다. 이 도구는 IaC 구성 오류를 감지하고 안전한 배포를 보장하는 데 도움이 됩니다.
원가 관리
비용 관리는 Azure의 AI 워크로드와 관련된 비용을 모니터링하고 제어합니다. 효과적인 비용 관리를 통해 조직은 예산을 설정하고, 지출을 추적하고, AI 프로젝트의 재정적 지속 가능성을 유지할 수 있습니다.
태그를 사용하여 비용을 할당합니다. 리소스에 태그 지정을 적용하도록 Azure Policy 정의를 구성합니다. 태그를 사용하여 더 나은 관리 및 청구를 위해 프로젝트, 비용 센터, 환경 및 소유자별로 리소스를 분류합니다.
태그 상속을 사용합니다. Cost Management에서 태그 상속을 사용하여 자식 리소스 사용량 레코드에 청구, 리소스 그룹 및 구독 태그를 적용합니다.
청구 계정을 관리합니다. Microsoft 청구를 사용하여 청구 계정을 감독하고 청구서를 처리합니다. 정확한 비용 추적을 용이하게 하기 위해 각 AI 프로젝트 또는 팀에 청구 계정을 할당합니다.
비용을 모니터링합니다. Microsoft Cost Management를 사용하여 예산 경고, 비용 변칙 경고 및 예약된 경고를 설정합니다. 이러한 방식으로 비용을 모니터링하면 조직에서 재무 분야를 유지하는 데 도움이 됩니다.
지출 패턴을 봅니다. Azure 비용 분석을 사용하여 정기적으로 지출 패턴을 검토하는 도구를 사용합니다. 이 프로세스는 추세를 식별하고, 특히 VM 사용량에서 절약 가능한 영역을 표시합니다.
특정 가상 머신 SKU를 허용합니다. Azure 정책을 사용하여 AI 예산에 맞는 가상 머신 SKU만 허용합니다. 기본 제공 정책 정의 허용 가상 머신 SKU는 이 컨트롤을 적용할 수 있습니다.
자동 크기 조정을 고려합니다. 가상 머신 확장 집합을 사용하여 수요에 따라 VM 수를 동적으로 조정하여 비용을 최적화합니다.
VM autoshutdown을 구성합니다. 자동 종료 기능을 사용하여 작업 시간 외 VM이 종료되도록 예약하여 불필요한 비용을 줄입니다.
보안 거버넌스
보안 거버넌스는 AI 워크로드 전반에서 강력한 보호 조치의 필요성을 해결합니다. 조직은 보안 정책 및 액세스 제어를 구현하여 중요한 데이터와 리소스를 보호할 수 있습니다. 위험을 줄이고 Azure에서 보안 AI 환경을 지원합니다.
Microsoft Entra ID와 통합합니다. 중앙 집중식 ID 관리 및 AI 워크로드의 SSO(Single Sign-On) 기능에 Microsoft Entra ID를 사용합니다.
각 환경에 대해 고유한 액세스 제어를 구현합니다. 각 배포 파이프라인의 ID를 지정된 환경으로 제한하여 우발적인 배포의 위험을 줄입니다.
Azure Defender를 사용하도록 설정합니다. 고급 위협 방지를 위해 Azure Defender를 활성화합니다. Azure Defender는 가상 머신, 스토리지 계정 및 데이터베이스를 비롯한 워크로드에 대한 보안을 강화하여 AI 워크로드에 대한 강력한 보안 태세를 강화합니다.
운영 거버넌스
운영 거버넌스는 AI 워크로드의 일관된 모니터링 및 관리를 보장합니다. 조직은 모니터링, 경고 및 자동화된 배포를 위한 도구를 사용하여 시스템 상태를 유지하고, 문제를 조기에 검색하고, 운영 효율성을 향상시켜 안정적이고 안정적인 AI 작업에 기여할 수 있습니다.
모니터링 에이전트를 배포합니다. 가상 머신, Azure Virtual Machine Scale Sets 및 Azure Arc 연결된 서버에 대해 Azure Monitor 에이전트가 기본적으로 배포되었는지 확인합니다. 관리 구독 내의 중앙 Log Analytics 작업 영역에 연결합니다.
경고 구성 메트릭 편차 알림을 받으려면 권장 경고 규칙을 사용하도록 설정합니다.
CI/CD 파이프라인을 사용합니다. CI/CD(지속적인 통합 및 지속적인 업데이트)를 구현하여 다양한 환경에 대한 코드 테스트 및 배포를 자동화합니다.