다음을 통해 공유


AI 준비 – Azure에서 AI 워크로드를 빌드하는 프로세스

이 문서에서는 Azure에서 AI 워크로드를 빌드하기 위한 조직 프로세스를 간략하게 설명합니다. 이 문서에서는 AI 워크로드를 대규모로 채택하기 위한 주요 디자인 및 프로세스 결정을 내리기 위한 권장 사항을 제공합니다. 지역 선택, 리소스 조직 및 네트워킹에 대한 AI 관련 지침에 중점을 둡니다.

AI 채택 프로세스를 보여 주는 다이어그램: AI 전략, AI 계획, AI Ready, Govern AI, Manage AI, Secure AI.

AI 안정성 설정

AI 안정성에는 일관된 성능, 규정 준수 및 가용성을 보장하기 위해 AI 모델을 호스트할 적절한 지역을 선택하는 작업이 포함됩니다. 조직은 신뢰할 수 있는 AI 서비스를 유지하기 위해 중복성, 장애 조치(failover) 및 성능 최적화를 해결해야 합니다.

  • 여러 지역을 사용하여 AI 모델 엔드포인트를 호스트합니다. 프로덕션 워크로드의 경우 둘 이상의 지역에 AI 엔드포인트를 호스트하여 중복성을 제공하고 고가용성을 보장합니다. 생성 AI 모델은 상태 비저장이지만 여러 지역에서 호스트하면 지역 오류가 발생하는 동안 더 빠른 장애 조치(failover) 및 복구가 가능합니다. Azure OpenAI 서비스 모델의 경우 전역 배포를 사용할 수 있습니다. 이러한 다중 리소스 배포는 용량이 충분한 지역으로 요청을 자동으로 투명하게 라우팅할 수 있습니다. 지역 배포라고도 하는 비글로벌 배포를 선택하는 경우 API 요청을 AI 엔드포인트로 부하 분산하기 위해 Azure API Management를 사용합니다.

  • 서비스 가용성을 확인합니다. 배포하기 전에 지역에 필요한 AI 리소스에 대한 가용성이 있는지 확인합니다. 특정 지역에서는 특정 AI 서비스를 제공하지 않거나 제한된 기능이 있어 솔루션의 기능에 영향을 줄 수 있습니다. 이 제한은 배포의 확장성에도 영향을 줄 수 있습니다. 예를 들어 Azure OpenAI 서비스 가용성은 배포 모델에 따라 달라질 수 있습니다. 이러한 배포 모델에는 전역 표준, 전역 프로비전, 지역 표준 및 프로비전된 지역이 포함됩니다. AI 서비스를 확인하여 필요한 리소스에 대한 액세스 권한이 있는지 확인합니다.

  • 지역 할당량 및 용량을 평가합니다. AI 워크로드가 증가함에 따라 선택한 지역의 할당량 또는 구독 제한을 고려합니다. Azure 서비스에는 지역 구독 제한이 있습니다. 이러한 제한은 대규모 유추 워크로드와 같은 대규모 AI 모델 배포에 영향을 줄 수 있습니다. 중단을 방지하려면 추가 용량이 필요할 것으로 예상하는 경우 Azure 지원 미리 문의하세요.

  • 성능을 평가합니다. RAG(검색 보강 세대) 애플리케이션과 같이 데이터를 검색해야 하는 애플리케이션을 빌드하는 경우 성능을 최적화하기 위해 데이터 스토리지 위치를 고려하는 것이 중요합니다. RAG 앱에서 모델을 사용하여 데이터를 공동 배치할 필요는 없지만, 이렇게 하면 대기 시간을 줄이고 효율적인 데이터 검색을 보장하여 성능을 향상시킬 수 있습니다.

  • 작업의 연속성을 준비합니다. 비즈니스 연속성 및 재해 복구를 보장하려면 보조 지역에서 미세 조정된 모델, RAG 데이터, 학습된 모델 및 학습 데이터 세트와 같은 중요한 자산을 복제합니다. 이러한 중복성은 중단이 있는 경우 더 빠른 복구를 가능하게 하고 지속적인 서비스 가용성을 보장합니다.

AI 거버넌스 설정

AI 거버넌스는 리소스를 구성하고 AI 워크로드 및 비용을 관리하는 정책을 적용하는 것을 포함합니다. 다양한 워크로드에서 규정 준수 및 보안을 보장하기 위해 관리 그룹 및 구독을 구조화해야 합니다. 적절한 AI 거버넌스는 무단 액세스를 방지하고, 위험을 관리하며, AI 리소스가 조직 내에서 효율적으로 작동하도록 합니다.

  • 인터넷 연결 및 내부 AI 워크로드를 구분합니다. 최소한 관리 그룹을 사용하여 AI 워크로드를 인터넷 연결("온라인") 및 내부 전용("회사")으로 구분합니다. 구분은 중요한 데이터 거버넌스 경계를 제공합니다. 내부 데이터를 공용 데이터와 분리하는 데 도움이 됩니다. 외부 사용자가 내부 작업에 필요한 중요한 비즈니스 정보에 액세스하지 않도록 합니다. 인터넷 연결 워크로드와 내부 워크로드 간의 이러한 구분은 Azure 랜딩 존 관리 그룹과 일치합니다.

  • 각 관리 그룹에 AI 정책을 적용합니다. Azure 랜딩 존에서 사용되는 정책과 같이 각 워크로드 유형에 대한 기준 정책부터 시작합니다. 기준에 더 많은 Azure Policy 정의를 추가하여 Azure AI 서비스, Azure AI Search, Azure Machine Learning 및 Azure Virtual Machines에 대한 균일한 거버넌스를 추진합니다.

  • 워크로드 구독에 AI 리소스를 배포합니다. AI 리소스는 워크로드 관리 그룹(내부 또는 인터넷 연결)에서 워크로드 거버넌스 정책을 상속해야 합니다. 플랫폼 리소스와 별도로 유지합니다. 플랫폼 팀에서 제어하는 AI 리소스는 개발 병목 상태를 만드는 경향이 있습니다. Azure 랜딩 존의 컨텍스트에서 애플리케이션 랜딩 존 구독에 AI 워크로드를 배포합니다.

AI 네트워킹 설정

AI 네트워킹은 보안 및 연결을 포함하여 AI 워크로드에 대한 네트워크 인프라의 설계 및 구현을 나타냅니다. 허브 및 스포크 같은 토폴로지 사용, DDoS 보호와 같은 보안 조치 적용 및 효율적인 데이터 전송 보장이 포함됩니다. 효과적인 AI 네트워킹은 안전하고 안정적인 통신을 위해 중요하며 네트워크 기반 중단을 방지하고 성능을 유지합니다.

  • 인터넷 연결 AI 워크로드에 대해 Azure DDoS Protection을 활성화합니다.Azure DDoS Protection 은 분산 서비스 거부 공격으로 인한 잠재적인 중단 및 가동 중지 시간으로부터 AI 서비스를 보호합니다. 가상 네트워크 수준에서 Azure DDoS 보호를 사용하도록 설정하여 인터넷 연결 애플리케이션을 대상으로 하는 트래픽 홍수를 방지합니다.

  • 온-프레미스 네트워크에 연결합니다. jumpbox 및 Azure Bastion을 사용하여 AI 워크로드에 대한 운영 액세스를 보호합니다. 필요한 경우, Azure AI Foundry와 같은 일부 서비스는 온-프레미스 리소스에 액세스할 수 있습니다. 온-프레미스 원본에서 클라우드 환경으로 대량의 데이터를 전송하는 조직의 경우 대역폭이 높은 연결을 사용합니다.

    • Azure ExpressRoute를 고려합니다. Azure ExpressRoute 는 일관된 성능이 필요한 높은 데이터 볼륨, 실시간 처리 또는 워크로드에 적합합니다. 데이터 경로 성능을 향상시키는 FastPath 기능이 있습니다.

    • Azure VPN Gateway를 고려합니다. 보통 데이터 볼륨, 드문 데이터 전송 또는 공용 인터넷 액세스가 필요한 경우 Azure VPN Gateway를 사용합니다. ExpressRoute보다 작은 데이터 세트에 대해 설정하는 것이 더 간단하고 비용 효율적입니다. AI 워크로드에 올바른 토폴로지 및 디자인을 사용합니다. 프레미스 간 및 하이브리드 연결에 사이트 간 VPN을 사용합니다. 보안 디바이스 연결을 위해 지점 및 사이트 간 VPN을 사용합니다. 자세한 내용은 온-프레미스 네트워크를 Azure에 연결을 참조하세요.

  • 도메인 이름 확인 서비스를 준비합니다. 프라이빗 엔드포인트를 사용하는 경우 적절한 DNS 확인 및 성공적인 프라이빗 엔드포인트 기능을 위해 프라이빗 엔드포인트를 DNS 와 통합합니다. Azure 랜딩 존의 일부로 Azure DNS 인프라를 배포하고 적절한 영역에 대한 기존 DNS 서비스에서 조건부 전달자를 구성합니다. 자세한 내용은 Azure 랜딩 존에 대한 대규모 Private Link 및 DNS 통합을 참조 하세요.

  • 네트워크 액세스 제어를 구성합니다. NSG(네트워크 보안 그룹)를 활용하여 AI 워크로드에 대한 인바운드 및 아웃바운드 트래픽을 제어하는 액세스 정책을 정의하고 적용합니다. 이러한 컨트롤을 사용하여 최소 권한 원칙을 구현하여 필수 통신만 허용되도록 할 수 있습니다.

  • 네트워크 모니터링 서비스를 사용합니다. Azure Monitor Network Insights 및 Azure Network Watcher와 같은 서비스를 사용하여 네트워크 성능 및 상태를 파악할 수 있습니다. 또한 Microsoft Sentinel을 사용하여 Azure 네트워크를 통해 지능형 위협 탐지 및 대응을 할 수 있습니다.

  • Azure Firewall을 배포하여 아웃바운드 Azure 워크로드 트래픽을 검사하고 보호합니다.Azure Firewall 은 인터넷에 도달하기 전에 나가는 트래픽에 대한 보안 정책을 적용합니다. 이 기능을 사용하여 나가는 트래픽을 제어 및 모니터링하고, 개인 IP를 방화벽의 공용 IP로 변환하여 SNAT가 내부 IP 주소를 숨길 수 있도록 합니다. 더 나은 모니터링 및 보안을 위해 안전하고 식별 가능한 아웃바운드 트래픽을 보장합니다.

  • 인터넷 연결 워크로드에 AZURE WAF(웹 애플리케이션 방화벽)를 사용합니다.Azure WAF 는 SQL 삽입 및 사이트 간 스크립팅 공격을 비롯한 일반적인 웹 취약성으로부터 AI 워크로드를 보호하는 데 도움이 됩니다. 악의적인 웹 트래픽에 대한 보안 강화가 필요한 워크로드에 대해 Application Gateway 에서 Azure WAF를 구성합니다.

AI 기반 설정

AI 기반은 Azure에서 AI 워크로드를 지원하는 핵심 인프라 및 리소스 계층 구조를 제공합니다. 여기에는 거버넌스 및 운영 요구 사항에 부합하는 확장 가능하고 안전한 환경 설정이 포함됩니다. 강력한 AI 기반을 통해 AI 워크로드를 효율적으로 배포하고 관리할 수 있습니다. 또한 향후 성장을 위한 보안 및 유연성을 보장합니다.

Azure 랜딩 존 사용

Azure 랜딩 존은 Azure 환경을 준비하는 데 권장되는 시작점입니다. 플랫폼 및 애플리케이션 리소스에 대해 미리 정의된 설정을 제공합니다. 플랫폼이 구축되면 전용 애플리케이션 랜딩 존에 AI 워크로드를 배포할 수 있습니다. 아래 그림 2에서는 AI 워크로드가 Azure 랜딩 존 내에서 통합되는 방법을 보여 줍니다.

Azure 랜딩 존 내의 AI 워크로드를 보여 주는 다이어그램 그림 2. Azure 랜딩 존의 AI 워크로드.

AI 환경 빌드

Azure 랜딩 존을 사용하지 않는 경우 이 문서의 권장 사항에 따라 AI 환경을 빌드합니다. 다음 다이어그램은 기준 리소스 계층 구조를 보여줍니다. AI 거버넌스 설정에 설명된 대로 내부 AI 워크로드 및 인터넷 연결 AI 워크로드를 분할합니다. 내부 워크로드는 정책을 사용하여 고객의 온라인 액세스를 거부합니다. 이 분리는 내부 데이터를 외부 사용자에게 노출하지 않도록 보호합니다. AI 개발은 jumpbox를 사용하여 AI 리소스 및 데이터를 관리해야 합니다.

내부 및 인터넷 연결 AI 워크로드에 대한 리소스 조직을 보여 주는 다이어그램 그림 3. AI 워크로드에 대한 기준 리소스 계층 구조입니다.

다음 단계

다음 단계는 AI 워크로드를 빌드하고 AI 환경에 배포하는 것입니다. 다음 링크를 사용하여 요구 사항에 맞는 아키텍처 지침을 찾습니다. PaaS(Platform-as-a-Service) 아키텍처로 시작합니다. PaaS는 AI를 채택하는 Microsoft의 권장 접근 방식입니다.