다음을 통해 공유


모델 제공 한도 및 지역

이 문서에서는 Mosaic AI 모델 서비스 및 지원되는 엔드포인트 유형에 대한 제한 사항 및 지역 가용성을 요약합니다.

리소스 및 페이로드 제한

Mosaic AI 모델 서비스 제공은 안정적인 성능을 보장하기 위해 기본 제한을 적용합니다. 이러한 제한에 대한 피드백이 있는 경우 Databricks 계정 팀에 문의하세요.

다음 table은 모델 서빙 엔드포인트의 리소스 및 페이로드 제한 사항을 요약합니다.

기능 세분성 Limit
페이로드 크기 요청당 16MB 기본 모델 또는 외부 모델을 제공하는 엔드포인트의 경우 limit는 4 MB입니다.
QPS(초당 쿼리 수) 작업 영역당 200이지만 Databricks 계정 팀에 문의하여 25,000 이상으로 늘릴 수 있습니다.
모델 실행 기간 요청당 120초
CPU 엔드포인트 모델 메모리 사용량 엔드포인트당 4GB
GPU 엔드포인트 모델 메모리 사용량 엔드포인트당 할당된 GPU 메모리보다 크거나 같은 경우 GPU 워크로드 크기에 따라 달라집니다.
프로비전된 동시 실행 모델 및 작업 영역당 200 동시 실행. Databricks 계정 팀에 문의하여 늘릴 수 있습니다.
오버헤드 대기 시간 요청당 50밀리초 미만
Init 스크립트 Init 스크립트는 지원되지 않습니다.
기본 모델 API(토큰당 지불) 요금 제한 작업 영역당 사용 사례에 대해 다음 제한이 충분하지 않은 경우 Databricks는 프로비전된 처리량을 사용하는 것이 좋습니다.

- Llama 3.3 70B 지시는 초당 2개의 쿼리와 시간당 1,200개의 쿼리를 처리하며, 이는 limit 기준입니다.
- Llama 3.1 405B Instruct의 limit는 초당 1개의 쿼리와 시간당 1200개의 쿼리를 지원합니다.
- DBRX 지시 모델은 limit 특성으로 초당 1개의 쿼리를 처리할 수 있습니다.
- Mixtral-8x 7B 명령어의 기본 속도는 초당 2개 쿼리 limit입니다.
- GTE Large(En)의 limit 속도는 초당 150개의 쿼리입니다.
- BGE Large(En)의 limit 속도는 초당 600개 쿼리입니다.
기본 모델 API(프로비저닝된 처리량) 요금 제한 작업 영역당 200

네트워킹 및 보안 제한 사항

  • 모델 제공 엔드포인트는 액세스 제어로 보호되며 IP 허용 목록 및 비공개 링크와 같이 작업 영역에 구성된 네트워킹 관련 침입 규칙을 준수합니다.
  • 프라이빗 연결(예: Azure Private Link)은 프로비전된 처리량 또는 사용자 지정 모델을 제공하는 엔드포인트를 사용하는 엔드포인트를 제공하는 모델에 대해서만 지원됩니다.
  • 기본적으로 모델 제공은 외부 엔드포인트(예: Azure OpenAI)에 대한 Private Link를 지원하지 않습니다. 이 기능에 대한 지원은 지역별로 평가 및 구현됩니다. 더 자세한 내용은 Azure Databricks 계정 팀에 문의하세요.
  • 모델 제공은 프로덕션 배포에 대한 불안정의 위험 때문에 기존 모델 이미지에 보안 패치를 제공하지 않습니다. 새 모델 버전에서 만든 새 모델 이미지에는 최신 패치가 포함됩니다. 더 자세한 내용은 Databricks 계정 팀에 문의하세요.

파운데이션 모델 API 제한

참고 항목

기본 모델 API를 제공하는 과정에서 Databricks는 데이터가 시작된 where 지역 외부에서 데이터를 처리할 수 있지만 관련 지리적 위치외부에는 처리하지 않을 수 있습니다.

토큰당 지불 및 프로비전된 처리량 워크로드 모두:

  • 작업 영역 관리자만 파운데이션 모델 API 엔드포인트에 대한 속도 제한과 같은 거버넌스 설정을 변경할 수 있습니다. 요금 제한을 변경하려면 다음 단계를 사용합니다.
    1. 작업 영역에서 서비스 UI를 열어 서비스 엔드포인트를 확인합니다.
    2. 편집하려는 파운데이션 모델 API 엔드포인트의 케밥 메뉴에서 세부 정보 보기.
    3. 엔드포인트 세부 정보 페이지의 오른쪽 위에 있는 케밥 메뉴에서 select속도 변경 limit.
  • GTE Large(En) 임베딩 모델은 정규화된 임베딩을 generate 하지 않습니다.

토큰당 종량제 한도

다음은 파운데이션 모델 API 토큰 당 종량제 워크로드와 관련된 제한 사항입니다.

  • 토큰당 종량제 워크로드는 HIPAA 또는 규정 준수 보안 프로필을 준수하지 않습니다 .
  • Meta Llama 3.3 70BGTE Large(En) 모델은 EU 및 미국 지원 지역토큰당 종량제 사용할 수 있습니다.
  • 다음 토큰당 종량제 모델은 지원되는 토큰당 종량제 API는 오직 미국 지역에서만 지원됩니다.
    • Meta Llama 3.1 405B Instruct
    • DBRX 지시
    • Mixtral-8x7B Instruct
    • BGE Large(En)
  • 작업 영역이 모델 서비스 지역에 있지만 미국 또는 EU 지역이 아닌 경우 지역 간 데이터 처리를 위해 작업 영역을 사용하도록 설정해야 합니다. 사용하도록 설정하면 토큰당 지불 워크로드가 미국으로 라우팅됩니다. Databricks Geo. 토큰당 종량제 워크로드를 처리하는 지리적 지역을 보려면 Databricks 지정 서비스를 참조 하세요.

프로비전된 처리량 제한

다음은 프로비전된 처리량 워크로드의 Foundation Model API와 관련된 제한 사항입니다.

  • 프로비전된 처리량 은 HIPAA 규정 준수 프로필을 지원하며 규정 준수 인증이 필요한 워크로드에 권장됩니다.
  • 프로비전된 처리량 워크로드에 DBRX 모델 아키텍처를 사용하려면 서비스 엔드포인트가 다음 지역 중 하나에 있어야 합니다.
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • 다음 table 지원되는 Meta Llama 3.1 및 3.2 모델의 지역 가용성을 보여 줍니다. 미세 조정된 모델을 배포하는 방법에 대한 지침은 미세 조정된 기본 모델 배포를 참조하세요.
Meta Llama 모델 변형 지역
meta-llama/Llama-3.1-8B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-8B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-70B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-405B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-405B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-1B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
메타 라마/Llama-3.3-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2

지역 가용성

참고 항목

지원되지 않는 지역에 엔드포인트가 필요한 경우 Azure Databricks 계정 팀에 문의하세요.

작업 영역이 모델 제공을 지원하지만 지원되지 않는 지역의 컨트롤 플레에서 제공되는 지역에 배포된 경우 작업 영역은 모델 제공을 지원하지 않습니다. 이러한 작업 영역에서 제공하는 모델을 사용하려고 하면 작업 영역이 지원되지 않는다는 오류 메시지가 표시됩니다. 더 자세한 내용은 Azure Databricks 계정 팀에 문의하세요.

기능의 지역 가용성에 대한 자세한 내용은 지역 가용성을 제공하는 모델을 참조하세요.