다음을 통해 공유


Azure 인프라(IaaS)의 AI 워크로드에 대한 거버넌스 권장 사항

이 문서에서는 IaaS(Azure 인프라)에서 AI 워크로드를 실행하는 조직에 대한 거버넌스 권장 사항을 제공합니다. 이러한 권장 사항은 조직이 리소스 관리, 비용 제어, 보안 및 운영 효율성을 위한 구조화된 프레임워크를 설정하는 데 도움이 됩니다. 이러한 사례를 따르면 AI 워크로드를 책임감 있게 확장하고 규정 준수, 보안 및 재무 목표를 충족하는지 확인할 수 있습니다.

리소스 거버넌스

리소스 거버넌스는 Azure 리소스를 관리하기 위한 규칙 및 표준을 설정합니다. 조직은 거버넌스 정책을 적용하여 규정 준수를 보장하고, 리소스 사용을 표준화하고, 비용을 제어할 수 있으며, 이는 AI 운영의 책임 있는 스케일링을 지원합니다.

  • 태그 사용을 적용합니다. Azure Policy를 사용하여 리소스 위치, 허용된 SKU 및 필수 태그와 같은 규칙을 적용합니다. 예를 들어 특정 고비용 VM의 배포를 제한하는 정책을 만들어 예산을 효과적으로 관리할 수 있습니다.

  • 거버넌스 정책을 적용하여 규정 준수 및 표준화를 보장합니다. Azure Policy를 사용하여 리소스 위치, 허용된 SKU 및 필수 태그와 같은 규칙을 적용합니다. 예를 들어 예산을 제어하기 위해 특정 고비용 VM의 배포를 제한하는 정책을 만듭니다.

  • 수명 주기 관리에 리소스 그룹을 사용합니다. 일반적인 수명 주기를 공유하는 리소스 그룹 내에 AI 리소스를 배포합니다. 리소스 그룹을 사용하면 리소스를 전체적으로 배포, 구성 및 삭제할 수 있습니다. 또한 추가 거버넌스(정책), 보안(RBAC) 및 비용(예산) 경계를 제공합니다.

  • 명명 규칙을 표준화합니다. AI 리소스에 대한 표준화된 명명 규칙을 구현합니다. 이렇게 하면 추적 및 관리가 향상됩니다. 각 Azure 리소스대한 명명 규칙 및 제한을 사용하고 권장되는 약어를 따릅니다. 많은 리소스에 이름 길이 제한이 있는 경우가 많습니다.

  • 인프라를 코드로 제어합니다. 클라우드용 Microsoft Defender 사용하여 IaC 보안을 모니터링하고 적용합니다. 이 도구는 IaC 구성 오류를 감지하고 안전한 배포를 보장하는 데 도움이 됩니다.

원가 관리

비용 관리는 Azure의 AI 워크로드와 관련된 비용을 모니터링하고 제어합니다. 효과적인 비용 관리를 통해 조직은 예산을 설정하고, 지출을 추적하고, AI 프로젝트의 재정적 지속 가능성을 유지할 수 있습니다.

  • 태그를 사용하여 비용을 할당합니다. 리소스에 태그 지정을 적용하도록 Azure Policy 정의를 구성합니다. 태그를 사용하여 더 나은 관리 및 청구를 위해 프로젝트, 비용 센터, 환경 및 소유자별로 리소스를 분류합니다.

  • 태그 상속을 사용합니다. Cost Management에서 태그 상속을 사용하여 자식 리소스 사용량 레코드에 청구, 리소스 그룹 및 구독 태그를 적용합니다.

  • 청구 계정을 관리합니다. Microsoft 청구를 사용하여 청구 계정을 감독하고 청구서를 처리합니다. 정확한 비용 추적을 용이하게 하기 위해 각 AI 프로젝트 또는 팀에 청구 계정을 할당합니다.

  • 비용을 모니터링합니다. Microsoft Cost Management를 사용하여 예산 경고, 비용 변칙 경고 및 예약된 경고를 설정합니다. 이러한 방식으로 비용을 모니터링하면 조직에서 재무 분야를 유지하는 데 도움이 됩니다.

  • 지출 패턴을 봅니다. Azure 비용 분석을 사용하여 정기적으로 지출 패턴을 검토하는 도구를 사용합니다. 이 프로세스는 추세를 식별하고, 특히 VM 사용량에서 절약 가능한 영역을 표시합니다.

  • 특정 가상 머신 SKU를 허용합니다. Azure 정책을 사용하여 AI 예산에 맞는 가상 머신 SKU만 허용합니다. 기본 제공 정책 정의 허용 가상 머신 SKU는 이 컨트롤을 적용할 수 있습니다.

  • 자동 크기 조정을 고려합니다. 가상 머신 확장 집합사용하여 수요에 따라 VM 수를 동적으로 조정하여 비용을 최적화합니다.

  • VM autoshutdown을 구성합니다. 자동 종료 기능을 사용하여 작업 시간 외 VM이 종료되도록 예약하여 불필요한 비용을 줄입니다.

보안 거버넌스

보안 거버넌스는 AI 워크로드 전반에서 강력한 보호 조치의 필요성을 해결합니다. 조직은 보안 정책 및 액세스 제어를 구현하여 중요한 데이터와 리소스를 보호할 수 있습니다. 위험을 줄이고 Azure에서 보안 AI 환경을 지원합니다.

  • Microsoft Entra ID와 통합합니다. 중앙 집중식 ID 관리 및 AI 워크로드의 SSO(Single Sign-On) 기능에 Microsoft Entra ID를 사용합니다.

  • 각 환경에 대해 고유한 액세스 제어를 구현합니다. 각 배포 파이프라인의 ID를 지정된 환경으로 제한하여 우발적인 배포의 위험을 줄입니다.

  • Azure Defender를 사용하도록 설정합니다. 고급 위협 방지를 위해 Azure Defender를 활성화합니다. Azure Defender는 가상 머신, 스토리지 계정 및 데이터베이스를 비롯한 워크로드에 대한 보안을 강화하여 AI 워크로드에 대한 강력한 보안 태세를 강화합니다.

운영 거버넌스

운영 거버넌스는 AI 워크로드의 일관된 모니터링 및 관리를 보장합니다. 조직은 모니터링, 경고 및 자동화된 배포를 위한 도구를 사용하여 시스템 상태를 유지하고, 문제를 조기에 검색하고, 운영 효율성을 향상시켜 안정적이고 안정적인 AI 작업에 기여할 수 있습니다.

  • 모니터링 에이전트를 배포합니다. 가상 머신, Azure Virtual Machine Scale Sets 및 Azure Arc 연결된 서버에 대해 Azure Monitor 에이전트가 기본적으로 배포되었는지 확인합니다. 관리 구독 내의 중앙 Log Analytics 작업 영역에 연결합니다.

  • 경고 구성 메트릭 편차 알림을 받으려면 권장 경고 규칙을 사용하도록 설정합니다.

  • CI/CD 파이프라인을 사용합니다. CI/CD(지속적인 통합 및 지속적인 업데이트)를 구현하여 다양한 환경에 대한 코드 테스트 및 배포를 자동화합니다.

다음 단계