Azure AI 모델 유추의 배포 유형

아티클
01/30/2025

Azure AI 서비스의 Azure AI 모델 유추는 비즈니스 및 사용 패턴에 맞는 호스팅 구조에 대한 선택 항목을 고객에게 제공합니다. 이 서비스는 표준 및 프로비전이라는 두 가지 주요 배포 형식을 제공합니다. 표준은 더 높은 처리량을 제공하기 위해 트래픽을 전역적으로 라우팅하는 글로벌 배포 옵션과 함께 제공됩니다. 또한 프로비전 배포에도 전역 배포 옵션이 함께 제공되므로 고객은 Azure 글로벌 인프라에서 프로비전된 처리량 단위를 구매하고 배포할 수 있습니다.

모든 배포는 정확히 동일한 유추 작업을 수행할 수 있지만 청구, 규모 및 성능은 크게 다릅니다. 솔루션 설계의 일부로 다음 두 가지 주요 결정을 내려야 합니다.

데이터 보존 요구 사항: 글로벌 리소스와 지역 리소스
호출 볼륨: 표준 및 프로비전

배포 유형 지원은 모델 및 모델 공급자에 따라 다릅니다. 모델 섹션에서 각 모델이 지원하는 SKU(배포 유형)를 확인할 수 있습니다.

글로벌 배포 유형과 지역 배포 유형

표준 배포 및 프로비전 배포의 경우 리소스 내에서 전역 또는 지역이라는 두 가지 구성 형식 중에서 선택할 수 있습니다. 전역 표준으로 시작하는 것을 권장합니다.

글로벌 배포는 Azure의 글로벌 인프라를 활용하여 고객 트래픽을 데이터 센터로 동적으로 라우팅하며 고객의 유추 요청에 가장 적합한 가용성을 제공합니다. 즉, 가동 시간 SLA 및 짧은 대기 시간을 제공하면서 Global에서 가장 높은 초기 처리량 제한 및 최상의 모델 가용성을 얻을 수 있습니다. 표준 및 전역 표준에서 지정된 사용 계층을 초과하는 대량 워크로드의 경우 대기 시간 변동이 증가할 수 있습니다. 대규모 워크로드 사용 시 더 낮은 대기 시간 차이가 필요한 고객의 경우 프로비전된 처리량을 구매하는 것이 좋습니다.

글로벌 배포는 모든 새 모델 및 기능의 첫 번째 위치입니다. 처리량 요구 사항이 큰 고객은 프로비전된 배포 제품을 고려해야 합니다.

Standard

표준 배포는 선택한 모델에 대해 호출당 지불 청구 모델을 제공합니다. 사용한 만큼만 비용을 지불하므로 시작하는 가장 빠른 방법을 제공합니다. 각 지역 및 처리량에서 사용할 수 있는 모델은 제한될 수 있습니다.

표준 배포는 버스트가 높은 낮은 볼륨에서 중간 볼륨 워크로드에 최적화되어 있습니다. 일관된 볼륨이 높은 고객은 대기 시간 변동이 더 커질 수 있습니다.

Azure OpenAI 모델만 이 배포 유형을 지원합니다.

글로벌 표준

글로벌 배포는 비 전역 배포 유형과 동일한 Azure AI 서비스 리소스에서 사용할 수 있지만 Azure의 글로벌 인프라를 활용하여 각 요청에 대해 최상의 가용성으로 트래픽을 데이터 센터로 동적으로 라우팅할 수 있습니다. 글로벌 표준은 가장 높은 기본 할당량을 제공하고 여러 리소스에 걸쳐 부하를 분산할 필요성을 제거합니다.

일관된 볼륨이 높은 고객은 대기 시간 변동이 더 커질 수 있습니다. 임계값은 모델별로 설정됩니다. 대규모 워크로드 사용 시 대기 시간 차이가 낮아야 하는 애플리케이션의 경우 프로비전된 처리량(사용 가능한 경우)을 구매하는 것이 좋습니다.

전역 프로비전

글로벌 배포는 비 전역 배포 유형과 동일한 Azure AI 서비스 리소스에서 사용할 수 있지만 Azure의 글로벌 인프라를 활용하여 각 요청에 대해 최상의 가용성으로 트래픽을 데이터 센터로 동적으로 라우팅할 수 있습니다. 전역 프로비전된 배포는 Azure 글로벌 인프라를 사용하여 예측 가능한 높은 처리량을 위한 예약된 모델 처리 용량을 제공합니다.