다음을 통해 공유


AKS(Azure Kubernetes Service)의 MLOps(기계 학습 작업) 모범 사례

이 문서에서는 AKS에서 MLOps를 사용할 때 유의해야 하는 모범 사례 및 고려 사항에 대해 설명합니다. MLOps에 대한 자세한 내용은 AI 및 기계 학습 워크플로에 대한 MLOps(Machine Learning 작업)를 참조 하세요.

IaC(Infrastructure as Code)

IaC 를 사용하면 다양한 애플리케이션 유형에 대해 일관되고 재현 가능한 인프라 프로비저닝 및 관리를 수행할 수 있습니다. 지능형 애플리케이션 배포를 사용하면 추론, 서비스 제공, 학습 및 미세 조정 모델에 필요한 컴퓨팅 성능 및 리소스가 달라질 수 있으므로 AI 파이프라인 전체에서 IaC 구현이 변경될 수 있습니다. AI 개발자 팀을 위한 IaC 템플릿을 정의하고 버전 관리하면 개별 하드웨어 요구 사항을 신비화하고 배포 프로세스를 가속화하면서 작업 유형 간에 일관성과 비용 효율성을 보장할 수 있습니다.

컨테이너화

컨테이너 이미지에서 모델 가중치, 메타데이터 및 구성을 관리하면 이식성, 간소화된 버전 관리 및 시간에 따른 스토리지 비용 절감이 가능합니다. 컨테이너화를 사용하면 다음을 수행할 수 있습니다.

  • 기존 컨테이너 이미지, 특히 보안 컨테이너 레지스트리에 저장된 수백만에서 수십억 개의 크기 및 안정적인 확산 모델에 이르는 대규모 언어 모델(LLM)의 경우 기존 컨테이너 이미지를 활용합니다.
  • 하나의 큰 이미지를 유지 관리하는 대신 각 작업에 대한 고유한 종속성이 포함된 여러 경량 컨테이너를 사용하여 파이프라인에서 SPOF(단일 실패 지점)를 방지합니다.
  • 큰 텍스트/이미지 데이터 세트를 기본 컨테이너 이미지 외부에 저장하고 런타임에 필요할 때 참조합니다.

Kubernetes AI 도구 체인 운영자 를 시작하여 몇 분 만에 AKS에 고성능 LLM을 배포합니다.

모델 관리 및 버전 관리

모델 관리 및 버전 관리는 시간이 지남에 따라 모델의 변경 내용을 추적하는 데 필수적입니다. 모델의 버전을 지정하면 다음을 수행할 수 있습니다.

  • 다양한 환경에서 쉽게 배포할 수 있는 모델 컨테이너 간에 일관성을 유지합니다.
  • PEFT(매개 변수 효율적인 미세 조정) 메서드를 사용하여 모델 가중치의 하위 집합에서 더 빠르게 반복하고 경량 컨테이너에서 새 버전을 유지 관리합니다.

Automation

자동화는 수동 오류를 줄이고 효율성을 높이며 ML 수명 주기 전반에 걸쳐 일관성을 보장하는 데 핵심적인 기능입니다. 작업을 자동화하면 다음을 수행할 수 있습니다.

  • 경고 도구를 통합하여 새 데이터가 애플리케이션으로 흘러들어갈 때 벡터 수집 흐름을 자동으로 트리거합니다.
  • 성능 저하를 추적하고 재학습 파이프라인을 트리거하도록 모델 성능 임계값을 설정합니다.

확장성 및 리소스 관리

확장성 및 리소스 관리는 AI 파이프라인이 애플리케이션의 요구를 처리할 수 있도록 하는 데 중요합니다. 리소스 사용량을 최적화하여 다음을 수행할 수 있습니다.

  • 분산 컴퓨팅 및 여러 병렬 처리 수준(예: 데이터, 모델 및 파이프라인 병렬 처리)을 통해 할당된 CPU, GPU 및 메모리 리소스를 효율적으로 사용하는 도구를 통합합니다.
  • 컴퓨팅 리소스에서 자동 크기 조정을 사용하도록 설정하여 사용량이 많은 시간에 높은 모델 요청 볼륨을 지원하고 사용량이 많은 시간에 축소할 수 있습니다.
  • 기존 애플리케이션과 마찬가지로 AKS 복원력 및 안정성 모범 사례를 따라 재해 복구를 계획합니다.

보안 및 규정 준수

보안 및 규정 준수는 데이터를 보호하고 AI 파이프라인이 규정 요구 사항을 충족하는지 확인하는 데 중요합니다. 보안 및 규정 준수 모범 사례를 구현하여 다음을 수행할 수 있습니다.

  • CVE(일반 취약성 및 노출) 검사를 통합하여 오픈 소스 모델 컨테이너 이미지에서 일반적인 취약성을 검색합니다.
    • Azure Container Registry에 저장된 모델 컨테이너 이미지에 Microsoft Defender for Containers를 사용합니다.
  • 수집된 데이터, 모델 변경 내용 및 메트릭의 감사 내역을 유지 관리하여 조직 정책을 준수합니다.

다음 단계

AKS에서 애플리케이션 배포 및 작업의 다른 영역에서 모범 사례에 대해 알아봅니다.