다음을 통해 공유


Azure의 AI 워크로드에 대한 관리 권장 사항

이 문서에서는 Azure에서 AI 워크로드를 실행하는 조직에 대한 관리 권장 사항을 제공합니다. Azure AI Foundry, Azure OpenAI, Azure Machine Learning 및 Azure AI Services를 비롯한 Azure AI PaaS(Platform-as-a-Service) 솔루션에 중점을 둡니다. 생성 및 비제전적 AI 워크로드를 모두 다룹니다.

Azure에서 AI 워크로드를 효과적으로 관리하려면 AI 워크로드를 지원하기 위해 배포, 모델 성능, 작업, 데이터 및 재해 복구를 감독해야 합니다. 적절한 관리를 통해 AI 워크로드는 수명 주기 내내 안정적이고 신뢰할 수 있으며 안전합니다.

AI 배포 관리

AI 배포를 관리하면 워크로드 팀이 개념 증명 단계에서 팀 전체의 보안 및 규정 준수를 향상시키는 일관된 구성으로 프로덕션 환경으로 이동할 수 있습니다. Azure는 거버넌스 및 보안을 적용하는 Azure AI Foundry 허브 및 프로젝트와 같은 도구를 제공합니다. Azure Machine Learning에는 허브 작업 영역과 유사한 기능이 있습니다. 자세한 내용은 AI 배포 관리를 참조 하세요.

AI 모델 관리

AI 모델 관리에는 해당 출력, 성능 및 책임 있는 AI 원칙과의 맞춤 모니터링이 포함됩니다. AI 모델은 데이터 변경, 사용자 동작 또는 기타 외부 요인으로 인해 시간이 지남에 따라 표류할 수 있습니다. 이러한 변경으로 인해 해결되지 않으면 부정확한 결과 또는 윤리적 문제가 발생할 수 있습니다.

  • 모델 출력을 모니터링합니다. 모니터링 및 테스트 프로세스를 구현하여 이러한 워크로드가 책임 있는 AI 대상에 맞게 유지되도록 합니다.

    • 생성 AI를 모니터링합니다. 생성 AI 워크로드의 경우, Azure AI Foundry의 기본 제공 평가 기능을 사용하고, 수동 모니터링 기능을 활용하세요. 프롬프트 흐름을 사용하는 경우 프롬프트 흐름 배포를 모니터링합니다. 또한 책임 있는 AI 도구를 사용하여 모델 모니터링을 보완하는 것이 좋습니다.

    • 비제전적 AI를 모니터링합니다. 비제전적 AI 워크로드의 경우 데이터 처리 단계를 모니터링하고 성능 메트릭을 모델링하여 예측이 정확하고 안정적으로 유지되도록 합니다. Azure Machine Learning에서 모델 모니터링을 사용하도록 설정합니다. Azure AI 서비스의 경우 사용하는 각 AI 서비스에 대한 모니터링을 사용하도록 설정합니다.

  • 모델 성능을 모니터링합니다. 성능 또는 정확도 저하가 감지되면 모니터링을 통해 문제의 원인을 파악할 수 있습니다. 모든 워크로드와 마찬가지로 Azure Monitor 및 Application Insights를 사용하여 AI 워크로드의 성능을 모니터링합니다.

    • 생성 AI 성능을 모니터링합니다. 생성 AI에서 응답 시간의 대기 시간 또는 벡터 검색 결과의 정확도를 모니터링하여 사용자 환경을 향상시킵니다. Azure AI Foundry에서, 추적을 활성화하여 각 요청마다 추적 데이터, 집계된 메트릭, 사용자 피드백을 수집합니다.

    • 비제전적 AI 성능을 모니터링합니다. Azure Machine Learning에 배포된 모델의 성능 메트릭을 캡처합니다. Azure AI 서비스의 경우 각 Azure AI 서비스에 대해 진단 로깅을 사용하도록 설정합니다.

  • 모니터링을 위한 생성 AI 게이트웨이를 고려합니다. Azure API Management와 같은 역방향 프록시를 사용하면 플랫폼에 기본이 아닌 로깅 및 모니터링을 구현할 수 있습니다. API Management를 사용하면 원본 IP, 입력 텍스트 및 출력 텍스트를 수집할 수 있습니다. 자세한 내용은 Azure OpenAI 서비스 언어 모델에 대한 로깅 및 모니터링 구현을 참조 하세요.

AI 작업 관리

AI 운영 관리에는 Azure AI 워크로드에 대한 컴퓨팅 리소스 표준화 및 플랫폼 리소스 모니터링이 포함됩니다. 이를 통해 팀은 올바른 컴퓨팅 리소스를 효율적으로 사용하고 플랫폼 리소스에서 메트릭 및 로그를 캡처할 수 있습니다.

  • 플랫폼 리소스를 모니터링합니다. 진단 설정을 사용하여 Azure AI Foundry, Azure Machine Learning, 및 Azure AI 서비스등 모든 주요 서비스에 대한 로그 및 메트릭을 캡처합니다. 특정 서비스는 감사 로그 및 관련 서비스별 로그를 캡처해야 합니다. 아키텍처의 특정 요구 사항에 따라 사용자 지정 모니터링 경고를 구현합니다. 예를 들어 컨테이너 레지스트리, Azure Machine Learning 및 Azure OpenAI에 대한 경고가 있습니다. AI 아키텍처의 각 서비스에 대한 권장 모니터링 경고를 구성합니다. 자세한 내용은 Azure Monitor 기준 경고을 참조하세요.

  • 컴퓨팅 관리를 표준화합니다. 프롬프트 흐름 및 학습 모델과 같은 특정 작업에 대한 컴퓨팅 리소스가 필요합니다. Machine Learning과 같은 서비스에는 컴퓨팅 인스턴스, 클러스터 및 서버리스 옵션과 같은 다양한 컴퓨팅 옵션이 있습니다. 컴퓨팅 유형, 런타임 및 종료 기간을 표준화합니다. 서비스별 컴퓨팅 옵션은 "Azure AI Foundry""Machine Learning"를 참조하세요.

AI 데이터 관리

고품질 데이터는 정확한 AI 모델의 기초입니다. 모델 드리프트 추적은 시간이 지남에 따라 AI 예측의 관련성을 유지하는 데 도움이 되며, 조직은 필요에 따라 모델을 조정하여 현재 조건을 반영할 수 있습니다.

  • 데이터 드리프트를 모니터링합니다. 생성 및 비제전적 AI에서 정확도 및 데이터 드리프트를 지속적으로 추적하여 모델이 관련성을 유지할 수 있도록 합니다. 모니터링은 모델 예측 또는 큰 언어 모델 응답이 예상 동작에서 벗어날 때 경고할 수 있습니다. 이 편차는 재학습 또는 조정이 필요하다는 것을 나타냅니다. 성능 임계값을 검색하도록 사용자 지정 경고를 설정합니다. 이 접근 방식은 문제가 발생할 때 조기 개입을 가능하게 합니다. Azure AI Foundry에서 평가를 사용하고 Machine Learning에서 지원되는 메트릭을 사용합니다.

  • 품질 데이터 처리를 보장합니다. 기계 학습의 경우 학습 데이터의 형식을 지정하고, 정리하고, 모델 사용을 준비해야 합니다. 생성 AI의 경우 접지 데이터는 올바른 형식이어야 하며 AI 모델 사용을 위해 청크, 보강 및 포함될 가능성이 높습니다. 자세한 내용은 RAG 솔루션 디자인 및 개발에 대한 가이드를 참조 하세요.

비즈니스 연속성 관리

생성 및 비제전적 AI 시스템 모두에 대한 고가용성 및 복원력을 보장하기 위해 다중 지역 배포를 구현합니다. 자세한 내용은 Azure AI Foundry, Azure Machine Learning및 Azure OpenAI다중 지역 배포를 참조하세요.

다음 단계