Azure OpenAI 배포 유형
Azure OpenAI는 고객에게 비즈니스 및 사용 패턴에 맞는 호스팅 구조를 선택할 수 있는 기회를 제공합니다. 이 서비스는 표준 배포와 프로비전의 두 가지 주요 배포 유형을 제공합니다. 지정된 배포 유형의 경우 고객은 Azure 지리(또는), Microsoft에서 지정한 데이터 영역(Standard
) 또는 전역Global-Standard
(DataZone-Standard
또는Provisioned
Global Provisioned-Managed
) 처리 옵션을 선택하여 워크로드를 데이터 처리 요구 사항에 맞출 수 있습니다.
모든 배포는 정확히 동일한 유추 작업을 수행할 수 있지만 청구, 규모 및 성능은 크게 다릅니다. 솔루션 설계의 일부로 다음 두 가지 주요 결정을 내려야 합니다.
- 데이터 처리 위치
- 통화 볼륨
Azure OpenAI 배포 데이터 처리 위치
표준 배포의 경우 전역, 데이터 영역 및 Azure 지리 등 세 가지 배포 유형 옵션 중에서 선택할 수 있습니다. 프로비전된 배포의 경우 전역 및 Azure 지역 중에서 선택할 수 있는 두 가지 배포 유형 옵션이 있습니다. 전역 표준으로 시작하는 것을 권장합니다.
글로벌 배포는 Azure의 글로벌 인프라를 활용하여 고객의 유추 요청에 가장 적합한 가용성으로 고객 트래픽을 데이터 센터로 동적으로 라우팅합니다. 즉, 전역 구성을 통해 작동 시간 SLA와 짧은 대기 시간을 제공하면서 가장 높은 초기 처리량 한도와 최상의 모델 가용성을 얻을 수 있습니다. 표준 및 전역 표준에서 지정된 사용 계층을 초과하는 대량 워크로드의 경우 대기 시간 변동이 증가할 수 있습니다. 대규모 워크로드 사용 시 대기 시간 차이가 낮아야 하는 고객의 경우 프로비전된 배포 유형을 활용하는 것이 좋습니다.
글로벌 배포는 모든 새 모델 및 기능의 첫 번째 위치가 됩니다. 통화 볼륨에 따라 볼륨이 크고 대기 시간 차이가 낮은 고객은 프로비전된 배포 유형을 고려해야 합니다.
데이터 영역 배포는 Azure의 글로벌 인프라를 활용하여 Microsoft에서 정의한 데이터 영역 내에서 고객의 유추 요청에 가장 적합한 가용성으로 고객 트래픽을 데이터 센터로 동적으로 라우팅합니다. Azure 지리와 글로벌 배포 제품 간에 배치되는 데이터 영역 배포는 Microsoft에서 지정한 데이터 영역 내에서 데이터 처리를 유지하면서 높은 할당량 제한을 제공합니다. 미사용 데이터에 저장된 데이터는 Azure OpenAI 리소스의 지역에 계속 유지됩니다(예: 스웨덴 중부 Azure 지역에서 만든 Azure OpenAI 리소스의 경우 Azure 지리가 스웨덴).
데이터 영역 배포에 사용되는 Azure OpenAI 리소스가 미국 있는 경우 데이터는 미국 내에서 처리됩니다. 데이터 영역 배포에 사용되는 Azure OpenAI 리소스가 유럽 연합 회원국에 있는 경우 데이터는 유럽 연합 회원국 지리 내에서 처리됩니다. 모든 Azure OpenAI 서비스 배포 유형의 경우 미사용 상태로 저장된 모든 데이터는 Azure OpenAI 리소스의 지리적 위치에 계속 유지됩니다. Azure 데이터 처리 및 규정 준수 약정은 적용 가능한 상태로 유지됩니다.
'전역'이라는 레이블이 지정된 배포 유형의 경우 관련 Azure OpenAI 모델이 배포되는 모든 지역에서 프롬프트 및 응답을 처리할 수 있습니다(모델의 지역 가용성에 대한 자세한 정보). 'DataZone'으로 레이블이 지정된 배포 형식의 경우 Microsoft에서 정의한 대로 지정된 데이터 영역 내의 모든 지역에서 프롬프트 및 응답을 처리할 수 있습니다. 미국 있는 Azure OpenAI 리소스에서 DataZone 배포를 만드는 경우 미국 내의 어디에서나 프롬프트 및 응답이 처리될 수 있습니다. 유럽 연합 회원국에 있는 Azure OpenAI 리소스에 DataZone 배포를 만드는 경우 해당 또는 다른 유럽 연합 회원국에서 프롬프트 및 응답을 처리할 수 있습니다. 전역 및 DataZone 배포 유형 모두에 대해 업로드된 데이터와 같이 미사용 상태로 저장된 모든 데이터는 고객이 지정한 지역에 저장됩니다. 고객이 Azure OpenAI Service에서 글로벌 배포 유형 또는 DataZone 배포 유형을 사용하는 경우 처리 위치만 영향을 받습니다. Azure 데이터 처리 및 규정 준수 약정은 적용 가능한 상태로 유지됩니다.
배포 형식
Azure OpenAI는 세 가지 형식의 배포를 제공합니다. 이는 처리량, SLA 및 가격에 대한 절충을 제공하는 다양한 수준의 기능을 제공합니다. 다음은 옵션에 대한 요약과 각 옵션에 대한 자세한 설명입니다.
제품 | 글로벌 일괄 처리 | 글로벌 표준 | 전역 프로비전 | Standard | 프로비전됨 |
---|---|---|---|---|---|
가장 적합한 용도 | 오프라인 채점 대기 시간에 중요하지 않고 몇 시간 내에 완료할 수 있는 워크로드. |
고객에게 권장하는 시작 위치입니다. 글로벌 표준은 표준보다 기본 할당량이 더 높고 사용할 수 있는 모델 수도 더 많습니다. |
크고 일관된 볼륨에 대한 실시간 채점. 가장 높은 약정과 한도를 포함합니다. | 데이터 보존 요구 사항이 있는 고객의 경우. 낮은 볼륨에서 중간 볼륨까지 최적화되었습니다. | 크고 일관된 볼륨에 대한 실시간 채점. 가장 높은 약정과 한도를 포함합니다. 데이터 보존 요구 사항이 있는 사용 사례의 경우. |
작동 방법 | 파일을 통한 오프라인 처리 | 트래픽은 전 세계 어디든 라우팅될 수 있습니다. | 트래픽은 전 세계 어디든 라우팅될 수 있습니다. | ||
시작 | 글로벌 일괄 처리 | 모델 배포 | 프로비전 온보딩 | 모델 배포 | 프로비전 온보딩 |
비용 | 가장 저렴한 옵션 글로벌 표준 가격 대비 50% 저렴합니다. 더 큰 할당량으로 모든 신규 모델에 액세스할 수 있습니다. |
글로벌 배포 가격 책정 | 일관된 사용으로 비용 절감을 경험할 수 있습니다. | 지역별 가격 | 일관된 사용으로 비용 절감을 경험할 수 있습니다. |
결과 | 글로벌 표준 대비 상당한 할인 | 기본 호출당 지불 한도가 가장 높은 모든 새 모델에 쉽게 액세스할 수 있습니다. 사용량이 많은 고객은 대기 시간 변동이 더 커질 수 있습니다. |
Azure 글로벌 인프라에서 예측 가능한 높은 처리량에 액세스합니다. 제공된 용량 계산기를 사용하여 PTU당 처리량을 확인합니다. | 가용성에 대한 SLA입니다. 버스트가 높은 낮은 볼륨에서 중간 볼륨 워크로드에 최적화되었습니다. 일관된 볼륨이 높은 고객은 대기 시간 변동이 더 커질 수 있습니다. |
매우 높고 예측 가능한 처리량을 갖춘 지역 액세스. 제공된 용량 계산기를 사용하여 PTU당 처리량을 결정합니다. |
받지 못하는 항목 | ❌실시간 통화 성능 ❌데이터 처리 보장 저장된 데이터는 지정된 Azure 지역에 유지되는 반면, 유추를 위해 데이터는 모든 Azure OpenAI 위치에서 처리될 수 있습니다. 데이터 보존에 대해 자세히 알아보기 |
❌데이터 처리 보장 저장된 데이터는 지정된 Azure 지역에 유지되는 반면, 유추를 위해 데이터는 모든 Azure OpenAI 위치에서 처리될 수 있습니다. 데이터 보존에 대해 자세히 알아보기 |
❌호출당 지불 유연성 ❌데이터 처리 보장 저장된 데이터는 지정된 Azure 지역에 유지되는 반면, 유추를 위해 데이터는 모든 Azure OpenAI 위치에서 처리될 수 있습니다. 데이터 보존에 대해 자세히 알아보기 |
❌짧은 대기 시간 동안의 대용량 | ❌호출당 지불 유연성 |
호출당 대기 시간 | 해당 없음(파일 기반 비동기 프로세스) | 실시간 통화 및 중소 규모 사용량에 최적화되었습니다. 사용량이 많은 고객의 경우 대기 시간 변동폭이 더 커질 수 있습니다. 모델별 임계값 설정 | 실시간 통화 및 대용량 사용에 최적화되었습니다. | 실시간 통화 및 중소 규모 사용량에 최적화되었습니다. 사용량이 많은 고객의 경우 대기 시간 변동폭이 더 커질 수 있습니다. 모델별 임계값 설정 | 실시간 통화 및 대용량 사용에 최적화되었습니다. |
코드의 SKU 이름 | GlobalBatch |
GlobalStandard |
GlobalProvisionedManaged |
Standard |
ProvisionedManaged |
청구 모델 | 토큰당 지불 | 토큰당 지불 | 월간 또는 연간 예약을 선택적으로 구매하여 시간별 청구 | 토큰당 지불 | 월간 또는 연간 예약을 선택적으로 구매하여 시간별 청구 |
글로벌 표준
Important
저장된 데이터는 지정된 Azure 지역에 유지되는 반면, 유추를 위해 데이터는 모든 Azure OpenAI 위치에서 처리될 수 있습니다. 데이터 보존에 대해 자세히 알아보기.
글로벌 배포는 글로벌이 아닌 배포 유형과 동일한 Azure OpenAI 리소스에서 사용할 수 있지만 Azure의 글로벌 인프라를 활용하여 각 요청에 대해 최상의 가용성을 제공하면서 트래픽을 데이터 센터로 동적으로 라우팅할 수 있습니다. 글로벌 표준은 가장 높은 기본 할당량을 제공하고 여러 리소스에 걸쳐 부하를 분산할 필요성을 제거합니다.
일관된 볼륨이 높은 고객은 대기 시간 변동이 더 커질 수 있습니다. 임계값은 모델별로 설정됩니다. 자세한 내용은 할당량 페이지를 참조하세요. 대량 워크로드 사용 시 낮은 대기 시간 차이가 필요한 애플리케이션의 경우 프로비전된 처리량을 구매하는 것이 좋습니다.
전역 프로비전
Important
저장된 데이터는 지정된 Azure 지역에 유지되는 반면, 유추를 위해 데이터는 모든 Azure OpenAI 위치에서 처리될 수 있습니다. 데이터 보존에 대해 자세히 알아보기.
글로벌 배포는 글로벌이 아닌 배포 유형과 동일한 Azure OpenAI 리소스에서 사용할 수 있지만 Azure의 글로벌 인프라를 활용하여 각 요청에 대해 최상의 가용성을 제공하면서 트래픽을 데이터 센터로 동적으로 라우팅할 수 있습니다. 전역 프로비전된 배포는 Azure 글로벌 인프라를 사용하여 예측 가능한 높은 처리량을 위한 예약된 모델 처리 용량을 제공합니다.
글로벌 일괄 처리
Important
저장된 데이터는 지정된 Azure 지역에 유지되는 반면, 유추를 위해 데이터는 모든 Azure OpenAI 위치에서 처리될 수 있습니다. 데이터 보존에 대해 자세히 알아보기.
글로벌 일괄 처리는 대규모 및 대용량 처리 작업을 효율적으로 처리하도록 설계되었습니다. 별도의 할당량으로 비동기 요청 그룹을 처리하고 24시간 대상 처리 시간을 제공하며, 글로벌 표준보다 50% 더 저렴한 비용을 제공합니다. 일괄 처리를 사용하면 한 번에 하나의 요청을 보내는 것이 아니라, 단일 파일에 많은 수의 요청을 보냅니다. 글로벌 일괄 처리 요청에는 별도의 큐 토큰 할당량이 있어 온라인 워크로드가 중단되지 않습니다.
주요 사용 사례는 다음과 같습니다.
대규모 데이터 처리: 방대한 데이터 세트를 병렬로 빠르게 분석합니다.
콘텐츠 생성: 제품 설명이나 문서 등 방대한 양의 텍스트를 만듭니다.
문서 검토 및 요약: 긴 문서의 검토 및 요약을 자동화합니다.
고객 지원 자동화: 더 빠른 응답을 위해 여러 문의를 동시에 처리합니다.
데이터 추출 및 분석: 방대한 양의 구조화되지 않은 데이터에서 정보를 추출하고 분석합니다.
NLP(자연어 처리) 작업: 대규모 데이터 세트에 대한 감정 분석이나 번역과 같은 작업을 수행합니다.
마케팅 및 개인 설정: 대규모로 개인 설정 콘텐츠와 권장 사항을 생성합니다.
데이터 영역 표준
Important
미사용 상태로 저장된 데이터는 지정된 Azure 지리에 남아 있지만 Microsoft에서 지정한 데이터 영역 내의 모든 Azure OpenAI 위치에서 유추를 위해 데이터를 처리할 수 있습니다. 데이터 보존에 대해 자세히 알아보기.
데이터 영역 표준 배포는 다른 모든 Azure OpenAI 배포 유형과 동일한 Azure OpenAI 리소스에서 사용할 수 있지만, Azure 글로벌 인프라를 활용하여 각 요청에 가장 적합한 가용성으로 Microsoft 정의 데이터 영역 내의 데이터 센터로 트래픽을 동적으로 라우팅할 수 있습니다. 데이터 영역 표준은 Azure 지리 기반 배포 유형보다 더 높은 기본 할당량을 제공합니다.
일관된 볼륨이 높은 고객은 대기 시간 변동이 더 커질 수 있습니다. 임계값은 모델별로 설정됩니다. 자세한 내용은 할당량 및 제한 페이지를 참조하세요. 대용량에서 짧은 대기 시간 분산이 필요한 워크로드의 경우 프로비전된 배포 제품을 활용하는 것이 좋습니다.
Standard
표준 배포는 선택한 모델에 대해 호출당 지불 청구 모델을 제공합니다. 사용한 만큼만 비용을 지불하므로 시작하는 가장 빠른 방법을 제공합니다. 각 지역에서 사용 가능한 모델과 처리량이 제한될 수 있습니다.
표준 배포는 버스트가 높은 낮은 볼륨에서 중간 볼륨 워크로드에 최적화되어 있습니다. 일관된 볼륨이 높은 고객은 대기 시간 변동이 더 커질 수 있습니다.
프로비전됨
프로비전된 배포를 사용하면 배포에 필요한 처리량을 지정할 수 있습니다. 그런 다음 서비스는 필요한 모델 처리 용량을 할당하고 준비가 되었는지 확인합니다. 처리량은 배포에 대한 처리량을 나타내는 정규화된 방법인 PTU(프로비전된 처리량 단위)로 정의됩니다. 각 모델-버전 쌍에는 배포를 위해 서로 다른 양의 PTU가 필요하며 PTU당 서로 다른 양의 처리량을 제공합니다. 프로비전된 처리량 개념 문서에서 자세히 알아봅니다.
구독에서 글로벌 배포에 대한 액세스를 사용하지 않도록 설정하는 방법
Azure Policy를 사용하면 조직의 표준을 적용하고 규정 준수를 대규모로 평가할 수 있습니다. 리소스별 정책별 세분성으로 드릴다운할 수 있는 기능을 사용하여 환경의 전체 상태를 평가할 수 있는 집계된 보기가 규정 준수 대시보드를 통해 제공됩니다. 또한 기존 리소스에 대한 대량 수정 및 새 리소스에 대한 자동 수정을 통해 리소스를 규정 준수 상태로 전환할 수 있습니다. Azure Policy 및 AI 서비스에 대한 특정 기본 제공 컨트롤에 대해 자세히 알아봅니다.
다음 정책을 사용하여 Azure OpenAI 글로벌 표준 배포에 대한 액세스를 사용하지 않도록 설정할 수 있습니다. Azure 전역 프로비전 또는 전역 일괄 처리 배포에 대한 액세스를 비활성화하려면 의도된 SKU 이름에 대해 GlobalStandard
를 GlobalProvisionedManaged
또는 GlobalBatch
로 바꿉니다.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
모델 배포
리소스 만들기 및 모델 배포에 대해 알아보려면 리소스 만들기 가이드를 참조하세요.