Azure의 AI 워크로드에 대한 거버넌스 권장 사항
이 문서에서는 Azure에서 AI 워크로드를 실행하는 조직에 대한 거버넌스 권장 사항을 제공합니다. Azure AI Foundry, Azure OpenAI, Azure Machine Learning 및 Azure AI Services를 비롯한 Azure AI PaaS(Platform-as-a-Service) 솔루션에 중점을 둡니다. 생성 및 비제전적 AI 워크로드를 모두 다룹니다.
효과적인 거버넌스는 AI의 책임 있는 사용을 지원합니다. 이를 통해 기업은 AI 투자를 최적화하는 동시에 보안, 비용 및 규정 준수와 관련된 위험을 줄일 수 있습니다.
AI 모델 관리
AI 모델 거버넌스는 신뢰할 수 있고 안전하며 윤리적인 출력을 생성할 수 있도록 AI 모델을 관리하기 위한 프로세스를 나타냅니다. 모델 입력 및 출력을 제어하면 위험을 완화하는 데 도움이 됩니다. 이러한 위험에는 유해한 콘텐츠 및 의도하지 않은 AI 사용이 포함됩니다. 둘 다 사용자와 조직에 영향을 줄 수 있습니다. 이러한 프로세스는 책임 있는 AI 배포를 지원하며 잠재적인 법적 및 윤리적 문제으로부터 보호합니다.
사용하는 모델을 제어합니다. Azure Policy를 사용하여 팀이 Azure AI Foundry 모델 카탈로그에서 배포할 수 있는 특정 모델을 관리합니다. 기본 제공 정책 사용하거나 사용자 지정 정책을 만드는 옵션이 있습니다. 이 방법은 허용 목록을 사용하므로 감사 효과로 시작합니다. 감사 효과를 사용하면 배포를 제한하지 않고 팀에서 사용 중인 모델을 모니터링할 수 있습니다. 워크로드 팀의 AI 개발 및 실험 요구 사항을 이해한 후에만 거부 효과로 전환하므로 진행 상황을 불필요하게 방해하지 않습니다. 정책을 거부전환하는 경우 팀이 이미 배포한 비규격 모델을 자동으로 제거하지 않습니다. 이러한 모델을 수동으로 수정해야 합니다.
AI 위험을 감지하는 프로세스를 설정합니다. 클라우드용 Defender 같은 도구를 사용하여 생성 AI 워크로드를 검색하고 위험을 탐색하여 생성 AI 아티팩트 배포를 시작합니다. 정기적으로 팀 생성 AI 모델을 빨간색으로 설정하는 정책을 설정합니다. 식별된 위험을 문서화하고 AI 거버넌스 정책을 지속적으로 업데이트하여 새로운 문제를 완화합니다.
생성 AI 모델에 대한 기준 콘텐츠 필터를 정의합니다. Azure AI Content Safety를 사용하여 승인된 AI 모델에 대한 기준 콘텐츠 필터를 정의합니다. 이 안전 시스템은 분류 모델 그룹을 통해 모델에 대한 프롬프트와 완성을 모두 실행합니다. 이러한 분류 모델은 다양한 범주에서 유해한 콘텐츠의 출력을 감지하고 방지하는 데 도움이 될 수 있습니다. 콘텐츠 안전은 프롬프트 쉴드, 접지 감지 및 보호된 자료 텍스트 검색과 같은 기능을 제공합니다. 이미지와 텍스트를 검색합니다. 애플리케이션 팀이 다양한 거버넌스 요구 사항을 전달하는 프로세스를 만듭니다.
지상 생성 AI 모델. 시스템 메시지와 RAG(검색 보강 생성) 패턴을 사용하여 생성 AI 모델의 출력을 제어합니다. 프롬프트 흐름 또는 오픈 소스 레드 팀 프레임워크 PyRIT와 같은 도구를 사용하여 접지의 효율성을 테스트합니다.
AI 비용 관리
AI 비용 거버넌스에는 효율성을 극대화하고 불필요한 지출을 줄이기 위해 AI 워크로드와 관련된 비용을 관리하는 작업이 포함됩니다. 효과적인 비용 제어는 AI 투자가 비즈니스 목표와 일치하도록 보장하여 예기치 않은 비용이 과도하게 프로비전되거나 활용되지 않도록 방지합니다. 이러한 사례를 통해 조직은 AI 운영을 재정적으로 최적화할 수 있습니다.
올바른 청구 모델을 사용합니다. 예측 가능한 워크로드가 있는 경우 Azure AI 서비스에서 AI 약정 계층을 사용합니다. Azure OpenAI 모델의 경우 프로비전된 처리량 단위(CPU)를 사용합니다. 이 단위는 종량제(사용량 기준) 가격보다 저렴할 수 있습니다. 비용 최적화를 위해 PTU 엔드포인트와 소비 기반 엔드포인트를 결합하는 것이 일반적입니다. 분산을 위해 AI 모델 기본 엔드포인트 및 보조 소비 기반 AI 엔드포인트에서PTU를 사용합니다. 자세한 내용은 여러 Azure OpenAI 인스턴스에 대한 게이트웨이 소개를 참조 하세요.
사용 사례에 적합한 모델을 선택합니다. 과도한 비용 없이 요구 사항을 충족하는 AI 모델을 선택합니다. 사용 사례에서 더 비싼 모델을 요구하지 않는 한 저렴한 모델을 사용합니다. 미세 조정의 경우 각 청구 기간 내에 시간 사용량을 최대화하여 추가 요금을 방지합니다. 자세한 내용은 Azure OpenAI 모델 및 가격을 참조하세요. 또한 모델 배포에 대한 Azure AI Foundry 모델 카탈로그 및 청구 정보 참조하세요.
프로비저닝 제한을 설정합니다. 불필요한 비용을 방지하기 위해 예상 워크로드에 따라 각 모델에 대한 프로비저닝 할당량을 할당합니다. 동적 할당량을 지속적으로 모니터링하여 실제 수요와 일치하는지 확인하고 그에 따라 조정하여 초과 지출 없이 최적의 처리량을 유지합니다.
올바른 배포 유형을 사용합니다. Azure OpenAI 모델을 사용하면 다양한 배포 유형을 사용할 수 있습니다. 글로벌 배포는 특정 OpenAI 모델에 대해 토큰당 더 낮은 가격 책정을 제공합니다.
호스팅 옵션을 평가합니다. 솔루션의 요구 사항에 따라 적절한 호스팅 인프라를 선택합니다. 예를 들어 생성 AI 워크로드의 경우 옵션에는 관리형 온라인 엔드포인트, AKS(Azure Kubernetes Service) 및 Azure 앱 Service가 포함되며 각각 자체 청구 모델이 있습니다. 특정 요구 사항에 대한 성능과 비용 간에 최상의 균형을 제공하는 옵션을 선택합니다.
소비 기반 서비스의 클라이언트 동작을 제어합니다. 네트워크 제어, 키 및 RBAC(역할 기반 액세스 제어)와 같은 보안 프로토콜을 적용하여 AI 서비스에 대한 클라이언트 액세스를 제한합니다. 클라이언트가 최대 토큰 및 최대 완성과 같은 API 제약 조건을 사용하는지 확인합니다. 가능하면 효율성을 최적화하기 위해 일괄 처리 요청을 합니다. 프롬프트를 간결하게 유지하지만 토큰 사용량을 줄이는 데 필요한 컨텍스트를 제공합니다.
생성 AI 게이트웨이를 사용하는 것이 좋습니다. 생성된 AI 게이트웨이를 사용하면 토큰 사용량을 추적하고, 토큰 사용량을 제한하고, 회로 차단기를 적용하고, 다른 AI 엔드포인트로 라우팅하여 비용을 제어할 수 있습니다.
컴퓨팅 인스턴스를 종료하는 정책을 만듭니다. AI 리소스가 Azure AI Foundry 및 Azure Machine Learning의 가상 머신 및 컴퓨팅 인스턴스에서 자동 종료 기능을 사용해야 한다는 정책을 정의하고 적용합니다. 자동 종료는 특정 기간 동안 오프라인으로 전환할 수 있는 비프로덕션 환경 및 프로덕션 워크로드에 적용됩니다.
자세한 비용 관리 지침은 Azure OpenAI 기준 아키텍처에서 AI 비용 및 비용 최적화 관리를 참조하세요.
AI 플랫폼 관리
AI 플랫폼 거버넌스에는 Azure AI Foundry 및 Azure Machine Learning과 같은 Azure의 다양한 AI 서비스에 정책 제어를 적용하는 것이 포함됩니다. 플랫폼 수준 거버넌스를 사용하면 AI 에코시스템 전반에 걸쳐 일관된 보안, 규정 준수 및 운영 정책이 적용됩니다. 이 맞춤은 효과적인 감독을 지원하여 전반적인 AI 관리 및 안정성을 강화합니다.
기본 제공 거버넌스 정책을 사용합니다. Azure Policy를 사용하여 사용 중인 각 AI 플랫폼에 기본 제공 정책 정의를 적용합니다. 여기에는 Azure AI Foundry, Azure Machine Learning , Azure AI 서비스 , Azure AI Search 등이 포함됩니다.
Azure 랜딩 존 AI 정책을 사용하도록 설정합니다. Azure 랜딩 존 사용자의 경우 배포 에는 Azure AI 플랫폼 서비스에 대한 권장 기본 제공 정책의 큐레이팅된 집합이 포함됩니다. Azure 랜딩 존 배포 중에 워크로드별 준수 범주에서 사용하려는 정책 이니셔티브를 선택합니다. 정책 집합에는 Azure OpenAI, Azure Machine Learning, Azure AI Search 및 Azure Bot Services가 포함됩니다.
AI 보안 관리
AI 보안 거버넌스는 데이터, 모델 또는 인프라를 손상시킬 수 있는 위협으로부터 AI 워크로드를 보호해야 하는 필요성을 해결합니다. 강력한 보안 관행은 무단 액세스 및 데이터 위반으로부터 이러한 시스템을 보호합니다. 이 보호는 AI 솔루션의 무결성과 안정성을 보장하며, 이는 사용자 신뢰 및 규정 준수를 유지하는 데 필수적입니다.
모든 구독에서 클라우드용 Defender 사용하도록 설정합니다. 클라우드용 Defender 안전하지 않은 배포된 리소스에서 구성을 검색하기 위한 비용 효율적인 방법을 제공합니다. 또한 AI 위협 방지를 사용하도록 설정해야 합니다.
액세스 제어 구성. 중앙 집중식 AI 리소스에 대한 최소 권한 사용자 액세스 권한을 부여합니다. 예를 들어 읽기 권한자 Azure 역할로 시작하고 제한된 권한으로 인해 애플리케이션 개발 속도가 느려지면 기여자 Azure 역할로 승격합니다.
관리 ID를 사용합니다. 지원되는 모든 Azure 서비스에서 관리 ID를 사용합니다. AI 모델 엔드포인트에 액세스해야 하는 애플리케이션 리소스에 대한 최소 권한 액세스 권한을 부여합니다.
Just-In-Time 액세스를 사용합니다. JUST-In-Time 액세스에 PIM(권한 있는 ID 관리)을 사용합니다.
AI 작업 관리
AI 운영 거버넌스는 안정적인 AI 서비스를 관리하고 유지 관리하는 데 중점을 둡니다. 이러한 작업은 장기적인 안정성 및 성능을 지원합니다. 중앙 집중식 감독 및 연속성 계획을 통해 조직은 가동 중지 시간을 방지하여 AI의 일관된 비즈니스 가치를 보장합니다. 이러한 노력은 효율적인 AI 배포 및 지속적인 운영 효율성에 기여합니다.
AI 모델을 검토하고 관리합니다. 특히 모델이 업그레이드되거나 사용 중지될 때 모델 버전 관리를 위한 정책을 개발합니다. 기존 시스템과의 호환성을 유지하고 모델 버전 간에 원활한 전환을 보장해야 합니다.
비즈니스 연속성 및 재해 복구 계획을 정의합니다. AI 엔드포인트 및 AI 데이터에 대한 비즈니스 연속성 및 재해 복구에 대한 정책을 설정합니다. AI 모델 엔드포인트를 호스트하는 리소스에 대한 기준 재해 복구를 구성합니다. 이러한 리소스에는 Azure AI Foundry, Azure Machine Learning, Azure OpenAI또는 Azure AI 서비스가 포함됩니다. Azure Blob Storage, Azure Cosmos DB 및 Azure SQL Database와 같은 모든 Azure 데이터 저장소는 따라야 하는 안정성 및 재해 복구 지침을 제공합니다.
AI 리소스에 대한 기준 메트릭을 정의합니다. 권장 경고 규칙을 사용하도록 설정하여 워크로드 상태 감소를 나타내는 편차 알림을 받습니다. 예를 들어, Azure AI Search , Azure Machine Learning , Azure AI Foundry 프롬프트 흐름 배포 , 및 개별 Azure AI 서비스에 대한 지침을 참조하세요.
AI 규정 준수 관리
AI의 규정 준수를 위해서는 조직이 업계 표준 및 법적 의무를 준수하여 부채와 관련된 위험을 줄이고 신뢰를 구축해야 합니다. 규정 준수 조치는 조직이 처벌을 피하고 클라이언트 및 규제 기관과의 신뢰성을 향상시키는 데 도움이 됩니다. 이러한 표준을 준수하면 책임 있고 규정을 준수하는 AI 사용을 위한 견고한 기반이 형성됩니다.
규정 준수를 자동화합니다. Microsoft Purview 준수 관리자를 사용하여 클라우드 환경에서 규정 준수를 평가하고 관리합니다. 업계용 Azure Policy에서 적용 가능한 규정 준수 이니셔티브를 사용합니다. Azure AI Foundry , Azure Machine Learning 등 사용하는 AI 서비스에 따라 다른 정책을 적용합니다.
산업별 규정 준수 검사 목록을 개발합니다. 규정과 표준은 산업 및 위치에 따라 다릅니다. 규제 요구 사항을 알고 업계와 관련된 규제 요구를 반영하는 검사 목록을 컴파일해야 합니다. ISO/IEC 23053:2022(Machine Learning을 사용하는 인공 지능 시스템 프레임워크)와 같은 표준을 사용하여 AI 워크로드에 적용되는 정책을 감사합니다.
AI 데이터 관리
AI 데이터 거버넌스에는 AI 모델에 대한 데이터 공급이 적절하고 규정을 준수하며 안전한지 확인하는 정책이 포함됩니다. 데이터 거버넌스는 개인 정보 보호 및 지적 재산을 보호하여 AI 출력의 안정성과 품질을 향상시킵니다. 이러한 조치는 데이터 오용과 관련된 위험을 완화하는 데 도움이 되며 규제 및 윤리적 표준에 부합합니다.
데이터 카탈로그를 만드는 프로세스를 설정합니다. Microsoft Purview와 같은 도구를 사용하여 조직 전체에서 통합 데이터 카탈로그 및 분류 시스템을 구현합니다. AI 개발을 위해 이러한 정책을 CI/CD 파이프라인에 통합합니다.
데이터 보안 경계를 유지 관리합니다. 데이터를 카탈로그화하면 중요한 데이터를 공용 AI 엔드포인트에 공급하지 않도록 할 수 있습니다. 특정 데이터 원본에서 인덱스를 만들 때 인덱싱 프로세스는 데이터와 관련된 보안 경계를 제거할 수 있습니다. AI 모델에 수집된 모든 데이터가 중앙 집중식 표준에 따라 분류되고 검사되는지 확인합니다.
저작권 침해를 방지합니다. Azure AI Content Safety에서 보호된 자료 검색과 같은 콘텐츠 필터링 시스템을 사용하여 저작권이 있는 자료를 필터링합니다. AI 모델을 접지, 학습 또는 미세 조정하는 경우 법적으로 획득되고 적절하게 허가된 데이터를 사용하고 모델이 저작권을 침해하지 않도록 보호 장치를 구현해야 합니다. 지적 재산권 준수에 대한 출력을 정기적으로 검토합니다.
접지 데이터에 대한 버전 제어를 구현합니다. 예를 들어 RAG에서 데이터를 접지하기 위한 버전 제어 프로세스를 설정합니다. 버전 관리 기능을 사용하면 기본 데이터 또는 해당 구조에 대한 변경 내용을 추적할 수 있습니다. 필요한 경우 변경 내용을 되돌려 배포 전체에서 일관성을 유지할 수 있습니다.