프로비전된 처리량 단위 온보딩

아티클
11/23/2024

이 문서에서는 PTU(프로비전된 처리량 단위)에 온보딩하는 프로세스를 안내합니다. 초기 온보딩을 완료하면 PTU 시작 가이드를 참조하는 것이 좋습니다.

PTU(프로비전된 처리량 단위)를 사용하는 경우

잘 정의되고 예측 가능한 처리량 및 대기 시간 요구 사항이 있는 경우 표준 배포에서 프로비전된 배포로 전환하는 것이 좋습니다. 일반적으로 이는 애플리케이션이 프로덕션 준비가 되었거나 이미 프로덕션에 배포되었으며 예상 트래픽을 이해하고 있을 때 발생합니다. 이를 통해 사용자는 필요한 용량을 정확하게 예측하고 예기치 못한 비용이 청구되는 것을 방지할 수 있습니다.

일반적인 PTU 시나리오

프로덕션 준비가 완료되었거나 프로덕션 중인 애플리케이션입니다.
예측 가능한 용량/사용량 예상 결과치가 애플리케이션
애플리케이션에는 실시간/대기 시간에 중요한 요구 사항이 있습니다.

참고 항목

함수 호출 및 에이전트 사용 사례에서 토큰 사용량은 가변적일 수 있습니다. 워크로드를 PTU로 마이그레이션하기 전에 예상되는 TPM(분당 토큰) 사용량을 자세히 이해해야 합니다.

크기 조정 및 예측: 프로비전된 배포

워크로드에 필요한 프로비전된 처리량 또는 PTU의 적절한 양을 결정하는 것은 성능 및 비용을 최적화하는 데 필수적인 단계입니다. 시스템 수준 처리량을 예측하는 데 사용할 수 있는 다양한 방법을 잘 모르는 경우 성능 및 대기 시간 설명서에서 시스템 수준 처리량 예측 권장 사항을 검토합니다. 이 섹션에서는 Azure OpenAI 용량 계산기를 사용하여 지정된 워크로드를 지원하는 데 필요한PTU 수를 예측하는 방법을 설명합니다.

프로비전된 처리량 단위 및 비용 예측

입력 및 출력 TPM을 사용하여 워크로드를 빠르게 예측하려면 배포 대화 상자 화면의 배포 세부 정보 섹션에서 기본 제공 Capacity Planner를 활용합니다. 기본 제공 Capacity Planner는 지정된 워크로드에 대한 PTU 배포에 대한 할당량의 크기 조정 및 할당을 간소화하는 데 도움이 되는 배포 워크플로의 일부입니다. TPM 데이터를 식별하고 예측하는 방법에 대한 자세한 내용은 성능 및 대기 시간 설명서의 권장 사항을 검토하세요.

기본 제공 용량 계산기에서 입력 및 출력 TPM 데이터를 입력한 후 계산 단추를 선택하여 PTU 할당 권장 사항을 확인합니다.

배포 워크플로 PTU 용량 계산기의 스크린샷

요청 수준 데이터를 사용하여 프로비전된 용량을 예측하려면 Azure AI Studio에서 Capacity Planner를 엽니다. 용량 계산기는 공유 리소스>모델 할당량>Azure OpenAI Provisioned에 있습니다.

프로비전됨 옵션 및 Capacity Planner는 특적 지역의 할당량 창에서만 사용할 수 있습니다. 이 옵션이 표시되지 않는 경우 할당량 지역을 스웨덴 중부로 설정하면 이 옵션을 사용할 수 있습니다. 워크로드에 따라 다음 매개 변수를 입력합니다.

입력	설명
모델	사용하려는 OpenAI 모델입니다. 예: GPT-4
버전	사용하려는 모델의 버전(예: 0614)입니다.
분당 최고 호출	모델로 전송될 것으로 예상되는 분당 호출 수입니다.
프롬프트 호출의 토큰	각 모델 호출에 대한 프롬프트의 토큰 수입니다. 더 큰 프롬프트가 있는 호출은 PTU 배포를 더 많이 활용합니다. 현재 이 계산기는 변동이 큰 워크로드에 대해 단일 프롬프트 값을 가정합니다. 배포에 필요한 PTU의 가장 정확한 추정치를 확인하려면 트래픽에 대한 배포를 벤치마킹하는 것이 좋습니다.
모델 응답의 토큰	각 모델 호출에서 생성된 토큰 수입니다. 생성 크기가 더 큰 호출은 더 많은 PTU 배포를 활용합니다. 현재 이 계산기는 변동이 큰 워크로드에 대해 단일 프롬프트 값을 가정합니다. 배포에 필요한 PTU의 가장 정확한 추정치를 확인하려면 트래픽에 대한 배포를 벤치마킹하는 것이 좋습니다.

필요한 세부 정보를 입력한 후 출력 열에서 계산 단추를 선택합니다.

출력 열의 값은 제공된 워크로드 입력에 필요한 PTU 단위의 예상 값입니다. 첫 번째 출력 값은 워크로드에 필요한 예상 PTU 단위를 가장 가까운 PTU 배율 증분으로 반올림해서 표시합니다. 두 번째 출력 값은 워크로드에 필요한 원시 예상 PTU 단위를 나타냅니다. 토큰 합계는 Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response) 수식을 사용하여 계산됩니다.

참고 항목

용량 계산기는 간단한 입력 기준에 따라 예측값을 제공합니다. 용량을 결정하는 가장 정확한 방법은 사용 사례의 대표적 워크로드를 사용하여 배포를 벤치마킹하는 것입니다.

프로비전된 처리량 구매 모델 이해

Azure OpenAI Provisioned 및 Global Provisioned는 배포된 CPU 수에 따라 매시간 주문형으로 구매되며, Azure Reservations 구매를 통해 상당한 기간 할인을 사용할 수 있습니다.

시간별 모델은 새 모델의 유효성을 검사하거나 해커톤을 위한 용량 확보와 같은 단기 배포 요구 사항에 유용합니다.  그러나 Azure OpenAI 프로비전 및 Global Provisioned에 대한 Azure Reservation이 제공하는 할인 혜택은 상당하며, 장기적으로 일관되게 사용하는 대부분의 고객에게는 예약된 모델이 더 나은 가치 제안으로 여겨질 것입니다.

참고 항목

8월 셀프 서비스 업데이트 이전에 온보딩된 Azure OpenAI Provisioned 고객은 약정 모델이라는 구매 모델을 사용합니다. 이러한 고객은 시간별/예약 구매 모델과 함께 이 이전 구매 모델을 계속 사용할 수 있습니다. 약정 모델은 새 고객에게 사용할 수 없습니다. 약정 구매 모델과 공존 및 마이그레이션 옵션에 대한 자세한 내용은 Azure OpenAI Provisioned 8월 업데이트를 참조하세요.

시간별 사용량

프로비전 및 글로벌 프로비전 배포에는 배포된 PTU 수에 따라 시간당 요금($/PTU/hr)이 청구됩니다.  예를 들어 300 PTU 배포에는 시간당 요금 x 300이 청구됩니다.  모든 Azure OpenAI 가격은 Azure 가격 계산기에서 확인할 수 있습니다.

배포가 1시간 미만으로 존재하는 경우 해당 시간 동안 배포된 분 수에 따라 비례 배분 요금이 청구됩니다.  예를 들어 1시간 중 15분 동안 존재하는 배포는 시간당 요금의 1/4이 청구됩니다. 

배포 크기가 변경되면 새 PTU 수와 일치하도록 배포 비용이 조정됩니다.

단기 배포 시나리오에서는 프로비전 및 글로벌 프로비전 배포에 대해 시간당 비용을 지불하는 것이 이상적입니다.  예: 새 모델의 품질 및 성능 벤치마킹 또는 해커톤과 같은 이벤트를 처리하기 위해 일시적으로 PTU 용량 늘리기. 

그러나 프로비전 및 글로벌 프로비전 배포를 장기간 사용해야 하는 고객은 다음 섹션에서 설명하는 대로 Azure Reservation을 통해 기간 할인을 구매하면 매달 상당히 적은 비용을 지불할 수 있습니다.

참고 항목

들어오는 트래픽에 따라 프로덕션 배포를 스케일링하고 시간 단위로만 비용을 지불하는 것은 권장되지 않습니다. 여기에는 두 가지 이유가 있습니다.

Azure OpenAI Provisioned용 Azure Reservation을 구입하여 달성한 비용 절감은 상당하며, 대부분의 경우 들어오는 트래픽으로 배포를 스케일링하는 것보다 예약을 통해 지불된 전체 프로덕션 볼륨에 대한 크기가 지정되는 배포를 유지하는 것이 더 저렴합니다.
사용되지 않는 프로비전된 할당량(PTU)이 있더라도 필요할 때 배포 크기 증가를 지원하기 위해 용량을 사용할 수 있다고 보장할 수 없습니다. 할당량은 배포할 수 있는 최대 CPU 수를 제한하지만 용량을 보장하지는 않습니다. 각 지역 및 모달에 대한 프로비전된 용량은 하루 종일 동적으로 변경되며 필요할 때 사용하지 못할 수도 있습니다. 따라서 트래픽 요구 사항을 충족하기 위해 영구 배포를 유지하는 것이 좋습니다(예약을 통해 지불).
삭제된 리소스에 대한 배포 요금은 리소스가 제거될 때까지 계속 청구됩니다. 이를 방지하려면 리소스를 삭제하기 전에 리소스 배포를 삭제합니다. 자세한 내용은 삭제된 Azure AI 서비스 리소스 복구 또는 제거를 참조하세요.

Azure OpenAI 프로비저닝된 배포에 대한 Azure Reservations

Azure OpenAI 프로비전 및 글로벌 프로비전용 Azure Reservation을 구매하면 시간당 사용 가격에 대한 할인을 가져올 수 있습니다. Azure Reservation은 많은 Azure 제품에서 공유하는 기간 할인 메커니즘입니다. 예를 들어 Compute 및 Cosmos DB와 같은 제품에서 사용됩니다. Azure OpenAI 프로비전 및 글로벌 프로비전의 경우, 예약은 1개월 또는 1년 기간 동안 고정된 수의 PTU에 대한 결제를 약정할 경우 할인을 제공합니다. 

Azure 예약은 Azure 예약 포털에 대한 Azure AI Studio 링크가 아닌 Azure Portal을 통해 구매됩니다.
예약은 지역적으로 구매되며 배포 그룹의 사용량을 포함하도록 범위를 유연하게 지정할 수 있습니다. 예약 범위는 다음과 같습니다.
- 개별 리소스 그룹 또는 구독
- 관리 그룹의 구독 그룹
- 청구 계정의 모든 구독
새 프로비전된 배포를 할인할 수 있도록 기존 예약과 동일한 범위를 포함하는 새 예약을 구매할 수 있습니다. 예를 들어 새 구독을 포함하도록 언제든지 기존 예약의 범위를 페널티 없이 업데이트할 수 있습니다.
구매 후 예약을 취소할 수 있지만 크레딧은 제한됩니다.
예약 범위 내에서 프로비전된 배포의 크기가 예약 금액을 초과하면 초과 요금이 시간당 요금으로 청구됩니다. 예를 들어 250 PTU 금액에 상응하는 배포가 200 PTU 예약 범위 내에 있는 경우 배포 크기가 200 PTU로 줄어들거나 나머지 50개를 포함하도록 새 예약이 생성될 때까지 매시간 50 PTU에 요금이 청구됩니다.
예약은 선택한 기간에 대한 할인된 가격을 보장합니다.  서비스에 대한 용량을 예약하거나 배포를 만들 때 사용할 수 있도록 보장하지 않습니다. 예약을 구매하기 전에 예약을 과도하게 구매하지 않도록 고객이 배포를 만드는 것이 좋습니다.

Important

모델 배포에 필요한 용량 가용성은 동적이며 지역과 모델에 따라 자주 변경됩니다. 사용할 수 있는 PTU보다 많은 PTU에 대한 예약을 구매하는 것을 방지하려면 먼저 배포를 만든 다음, 배포한 PTU를 충당할 Azure Reservation을 구매합니다. 이러한 모범 사례를 따르면 예약 할인 혜택을 최대한 활용하고 사용할 수 없는 기간 약정을 구매하는 것을 방지할 수 있습니다.
예약을 구매하기 위한 Azure 역할 및 테넌트 정책 요구 사항은 배포 또는 Azure OpenAI 리소스를 만드는 데 필요한 요구 사항과 다릅니다. 예약이 필요한 경우 사전에 구매 권한이 있는지 확인합니다. 자세한 내용은 Azure OpenAI Provisioned 예약 설명서를 참조하세요.

중요: Azure OpenAI 프로비저닝된 예약 크기 조정

예약 구매의 PTU 금액은 할당량에 할당되거나 배포에 사용되는 PTU와는 별개입니다. 할당량보다 많은 CPU에 대한 예약을 구매하거나 원하는 지역, 모델 또는 버전에 대해 배포할 수 있습니다. 예약을 과도하게 구매하는 크레딧은 제한되며, 고객은 배포된 CPU에 따라 예약 크기를 유지하기 위한 조치를 취해야 합니다.

배포를 만든 후에는 항상 예약을 구매하는 것이 가장 좋습니다. 이렇게 하면 예약을 구매한 다음, 필요한 용량을 필요한 지역 또는 모델에 사용할 수 없는지를 알 수 없습니다.

고객이 올바른 예약 금액을 구매할 수 있도록 지원합니다. 예약에서 처리할 수 있는 구독 및 지역의 총 PTU 수는 Azure AI Studio의 할당량 페이지에 나열됩니다. "예약 가능한 PTU" 메시지를 참조하세요.

Azure Reservations 관리

예약을 만든 후에는 예상되는 사용량이 수신되는지 확인하는 것이 가장 좋습니다. 이 작업은 Azure Reservation Portal 또는 Azure Monitor를 통해 수행할 수 있습니다. 이러한 토픽 및 기타 토픽에 대한 세부 정보는 다음에서 찾을 수 있습니다.

다음을 통해 공유

프로비전된 처리량 단위 온보딩

PTU(프로비전된 처리량 단위)를 사용하는 경우

일반적인 PTU 시나리오

크기 조정 및 예측: 프로비전된 배포

프로비전된 처리량 단위 및 비용 예측

프로비전된 처리량 구매 모델 이해

시간별 사용량

Azure OpenAI 프로비저닝된 배포에 대한 Azure Reservations

중요: Azure OpenAI 프로비저닝된 예약 크기 조정

다음 단계

피드백

추가 리소스