다음을 통해 공유


Azure AI Foundry를 사용하여 리소스에 대한 할당량 관리 및 증가

Important

이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

할당량은 구독 내에서 배포 전반에 걸쳐 비율 제한 할당을 적극적으로 관리할 수 있는 유연성을 제공합니다. 이 문서에서는 Azure AI Foundry 가상 머신 및 Azure OpenAI 모델에 대한 할당량을 관리하는 프로세스를 안내합니다.

Azure는 사기로 인한 예산 초과를 방지하고, Azure 용량 제약 조건을 준수하기 위해 한도 및 할당량을 사용합니다. 관리자의 비용을 제어하는 좋은 방법이기도 합니다. 프로덕션 워크로드의 크기를 조정할 때 이러한 한도를 고려하세요.

이 문서에서는 다음에 대해 알아봅니다.

  • Azure 리소스에 대한 기본 제한 사항
  • Azure AI Foundry 허브 수준 할당량 만들기
  • 할당량 및 제한 보기
  • 할당량 및 제한 증가 요청

특별 고려 사항

할당량은 계정의 각 구독에 적용됩니다. 구독이 여러 개인 경우 각 구독에 대해 할당량 증가를 요청해야 합니다.

할당량은 Azure 리소스에 대한 신용 한도액일 뿐이며 용량을 보장하는 것은 아닙니다. 대규모 용량이 필요한 경우 Azure 지원에 할당량 증가를 문의하세요.

참고 항목

Azure AI Foundry 컴퓨팅에는 코어 컴퓨팅 할당량과 별도의 할당량이 있습니다.

기본 한도는 평가판, 종량제, VM(가상 머신) 시리즈(예: Dv2, F 및 G)와 같은 범주 형식에 따라 다릅니다.

Azure AI Foundry 할당량

Azure AI Foundry 포털의 다음 작업은 할당량을 사용합니다.

  • 컴퓨팅 인스턴스 만들기.
  • 벡터 인덱스 빌드.
  • 모델 카탈로그에서 열린 모델 배포.

Azure AI Foundry 컴퓨팅

Azure AI Foundry 컴퓨팅 에는 코어 수와 구독의 지역별로 허용되는 고유 컴퓨팅 리소스 수 모두에 대한 기본 할당량 제한이 있습니다.

  • 코어 수 할당량은 각 VM 제품군 및 누적 총 코어 수로 분할됩니다.
  • 지역별 고유 컴퓨팅 리소스 수에 대한 할당량은 관리되는 컴퓨팅 리소스에만 적용되므로 VM 코어 할당량과 별개입니다.

컴퓨팅 제한을 높이기 위해 Azure AI Foundry에서 할당량 증가를 요청할 수 있습니다.

사용 가능한 리소스는 다음과 같습니다.

  • 지역별 전용 코어는 구독 제안 유형에 따라 24~300의 기본 한도를 갖습니다. 각 VM 제품군에 대해 구독별 전용 코어 수를 늘릴 수 있습니다. NCv2, NCv3 또는 ND 시리즈와 같은 특별한 VM 제품군은 기본 코어 수 0으로 시작합니다. GPU는 또한 기본적으로 0코어로 설정됩니다.
  • 지역당 총 컴퓨팅 제한은 지정된 구독 내의 지역당 기본 한도인 500이며 지역당 최대값인 2500까지 늘릴 수 있습니다. 이 제한은 컴퓨팅 인스턴스와 관리되는 온라인 엔드포인트 배포 간에 공유됩니다. 컴퓨팅 인스턴스는 할당량 목적의 단일 노드 클러스터로 간주됩니다. 총 컴퓨팅 제한을 늘리려면 온라인 고객 지원 요청을 엽니다.

총 컴퓨팅 제한을 늘리기 위해 지원 요청을 열 때 다음 정보를 제공합니다.

  1. 문제 유형에 대한 기술을 선택합니다.

  2. 할당량을 늘릴 구독을 선택합니다.

  3. Machine Learning을 서비스 유형으로 선택합니다.

  4. 할당량을 늘릴 리소스를 선택합니다.

  5. 요약 필드에 "총 컴퓨팅 제한 증가"를 입력합니다.

  6. 문제 유형으로 컴퓨팅 인스턴스를 선택하고 문제 하위 유형으로 할당량을 선택합니다.

    Azure Portal에서 컴퓨팅 할당량 요청을 제출하는 페이지의 스크린샷.

  7. 다음을 선택합니다.

  8. 추가 세부 정보 페이지에서 구독 ID, 지역, 새 제한(500에서 2500 사이) 및 비즈니스 근거를 제공하여 해당 지역의 총 컴퓨팅 제한을 높입니다.

  9. 만들기를 선택하여 지원 요청 티켓을 제출합니다.

Azure AI Foundry 공유 할당량

Azure AI Foundry는 여러 지역의 여러 사용자가 동시에 사용할 수 있는 공유 할당량 풀을 제공합니다. 가용성에 따라 사용자는 공유 풀에서 할당량에 일시적으로 액세스하고 할당량을 사용하여 제한된 시간 동안 테스트를 수행할 수 있습니다. 특정 기간은 사용 사례에 따라 달라집니다. 할당량 풀의 할당량을 일시적으로 사용하면 더 이상 단기 할당량 증가에 대한 지원 티켓을 제출하거나 워크로드를 계속하기 전에 할당량 요청이 승인될 때까지 기다릴 필요가 없습니다.

공유 할당량 풀은 모델 카탈로그에서 Llama-2, Phi, Nemotron, Mistral, Dolly 및 Deci-DeciLM 모델에 대한 추론을 테스트하는 데 사용할 수 있습니다. 프로덕션 엔드포인트가 아닌 임시 테스트 엔드포인트를 만드는 데만 공유 할당량을 사용해야 합니다. 프로덕션의 엔드포인트의 경우 전용 할당량을 요청해야 합니다. 공유 할당량에 대한 청구는 전용 가상 머신 제품군에 대한 청구와 마찬가지로 사용량 기반입니다.

Container Instances

자세한 내용은 Container Instances 한도를 참조하세요.

스토리지

Azure Storage는 구독당 지역별로 250개의 스토리지 계정으로 제한됩니다. 이러한 한도에는 표준 및 Premium 스토리지 계정이 모두 포함됩니다.

Azure AI Foundry 포털에서 할당량 보기 및 요청

할당량을 사용하여 동일한 구독의 여러 Azure AI Foundry 허브 간에 컴퓨팅 대상 할당을 관리합니다.

기본적으로 모든 허브는 VM 제품군에 대한 구독 수준 할당량과 동일한 할당량을 공유합니다. 그러나 구독의 허브에 대한 보다 세부적인 비용 제어 및 거버넌스를 위해 개별 VM 제품군에 대한 최대 할당량을 설정할 수 있습니다. 개별 VM 제품군에 대한 할당량을 사용하면 용량을 공유하고 리소스 경합 문제를 방지할 수 있습니다.

  1. Azure AI Foundry 포털의 왼쪽 메뉴에서 관리 센터를 선택합니다.

    관리 센터 링크의 스크린샷.

  2. 왼쪽 메뉴에서 할당량을 선택합니다.

    관리 섹션의 모델 및 VM 할당량 항목의 스크린샷.

  3. 할당량 보기에서 선택한 Azure 지역의 모델에 대한 할당량을 볼 수 있습니다. 추가 할당량을 요청하려면 모델을 선택한 다음 할당량 요청을 선택합니다.

    • 모든 할당량 표시 토글을 사용하여 모든 할당량을 표시하거나 현재 할당된 할당량만 표시합니다.
    • Group by 드롭다운을 사용하여 할당량 유형, 지역 및 모델, 할당량 유형, 모델 및 지역 또는 없음으로 목록을 그룹화합니다. 없음 그룹은 모델 배포 목록을 표시합니다.
    • 특정 모델 배포에 대한 정보를 보려면 그룹화를 확장합니다. 모델 배포를 보는 동안 할당량 할당 열에서 연필 아이콘을 선택하여 모델 배포에 대한 할당량 할당을 편집합니다.
    • 할당량 사용에 대한 자세한 내용을 보려면 페이지 옆에 있는 차트를 사용합니다. 차트는 대화형입니다. 차트의 섹션 위를 마우스로 가리키면 자세한 정보가 표시되고, 차트를 선택하면 모델 목록이 필터링됩니다. 차트 범례를 선택하면 차트에 표시되는 데이터가 필터링됩니다.
    • Azure OpenAI 프로비전 링크를 사용하여 용량 계산기를 포함하는 프로비전된 모델에 대한 정보를 확인합니다.

    Azure AI Foundry 포털의 모델 할당량 페이지 스크린샷.

  4. VM 할당량 링크를 선택하면 선택한 Azure 지역의 가상 머신 제품군에 대한 할당량 및 사용량을 볼 수 있습니다. 더 많은 할당량을 요청하려면 VM 제품군을 선택한 다음 요청 할당량을 선택합니다.

    Azure AI Foundry 포털의 VM 할당량 페이지 스크린샷

다음 단계