개요: Azure AI Foundry 포털에서 AI 모델 배포
Azure AI Foundry 포털의 모델 카탈로그는 생성 AI 애플리케이션을 빌드하기 위해 다양한 모델을 검색하고 사용하는 허브입니다. 유추 요청을 수신할 수 있도록 모델을 배포해야 합니다. 배포된 모델과 상호 작용하는 프로세스를 추론이라고 합니다. Azure AI Foundry는 요구 사항 및 모델 요구 사항에 따라 이러한 모델에 대한 포괄적인 배포 옵션 제품군을 제공합니다.
모델 배포
배포 옵션은 모델 유형에 따라 달라집니다.
- Azure OpenAI 모델: Azure의 엔터프라이즈 기능이 있는 최신 OpenAI 모델입니다.
- 서비스 모델 모델: 이러한 모델에는 구독의 컴퓨팅 할당량이 필요하지 않습니다. 이 옵션을 사용하면 MaaS(Model as a Service)를 배포할 수 있습니다. 서버리스 API 배포를 사용하며 종량제 방식으로 토큰당 요금이 청구됩니다.
- 개방형 및 사용자 지정 모델: 모델 카탈로그는 개방형 액세스의 형식에 걸쳐 다양한 모델에 대한 액세스를 제공합니다. 관리 인프라, 가상 머신 및 용량 관리를 위한 인스턴스 수를 사용하여 자체 구독에서 개방형 모델을 호스트할 수 있습니다. Azure OpenAI, Hugging Face 및 NVIDIA의 다양한 모델이 있습니다.
Azure AI Foundry는 다음과 같은 네 가지 배포 옵션을 제공합니다.
속성 | Azure OpenAI 서비스 | Azure AI 모델 유추 서비스 | 서버리스 API | 관리되는 컴퓨팅 |
---|---|---|---|---|
어떤 모델을 배포할 수 있나요? | Azure OpenAI 모델 | Azure OpenAI 모델 및 Model as a Service | 서비스로서의 모델 | 열기 및 사용자 지정 모델 |
배포 리소스 | Azure OpenAI 리소스 | Azure AI 서비스 리소스 | AI 프로젝트 리소스 | AI 프로젝트 리소스 |
가장 적합한 경우 | OpenAI 모델만 사용하려고 합니다. | OpenAI를 비롯한 Azure AI 카탈로그의 주력 모델을 활용할 계획입니다. | 특정 공급자(OpenAI 제외)의 단일 모델을 사용할 계획입니다. | 열려 있는 모델을 사용하려는 경우 구독에서 사용할 수 있는 컴퓨팅 할당량이 충분합니다. |
청구 기준 | 토큰 사용량 및 PTU | 토큰 사용량 | 토큰 사용량1 | 컴퓨팅 코어 시간2 |
배포 지침 | Azure OpenAI 서비스에 배포 | Azure AI 모델 유추에 배포 | 서버리스 API에 배포 | 관리형 컴퓨팅에 배포 |
1 최소 엔드포인트 인프라는 분당 요금이 청구됩니다. 종량제로 모델을 호스트하는 인프라에 대해서는 요금이 청구되지 않습니다. 엔드포인트를 삭제한 후에는 추가 요금이 발생하지 않습니다.
2 청구는 제품 계층 및 생성 시점 이후 배포에 사용된 인스턴스 수에 따라 분당 기준으로 청구됩니다. 엔드포인트를 삭제한 후에는 추가 요금이 발생하지 않습니다.
팁
비용을 추적하는 방법에 대한 자세한 내용은 Azure Marketplace를 통해 제공되는 모델의 비용 모니터링을 참조하세요.
배포 옵션에 대해 어떻게 생각해야 하나요?
Azure AI Foundry는 고객이 배포 옵션을 탐색하고 비즈니스 및 기술 요구 사항에 가장 적합한 옵션을 선택하도록 권장합니다. 일반적으로 다음과 같은 사고 프로세스를 사용할 수 있습니다.
더 큰 범위의 배포 옵션부터 시작합니다. 이렇게 하면 변경하기로 결정할 때마다 아키텍처를 다시 빌드하지 않고도 애플리케이션에서 더 빠르게 반복하고 프로토타입을 제작할 수 있습니다. Azure AI 모델 유추 서비스는 Azure OpenAI의 최신 혁신을 포함하여 Azure AI 카탈로그의 모든 주력 모델을 지원하는 배포 대상입니다.
특정 모델을 사용하려는 경우:
Azure OpenAI 모델에 관심이 있는 경우 다양한 기능을 제공하는 Azure OpenAI 서비스를 사용하고 이를 위해 설계되었습니다.
Model as a Service의 특정 모델에 관심이 있고 다른 유형의 모델을 사용하지 않으려는 경우 서버리스 API 엔드포인트를 사용합니다. 고유한 엔드포인트 URL 및 키 집합으로 단일 모델을 배포할 수 있습니다.
모델 as a Service에서 모델을 사용할 수 없는 경우 구독에서 컴퓨팅 할당량을 사용할 수 있는 경우 개방형 및 사용자 지정 모델의 배포를 지원하는 Managed Compute를 사용합니다. 또한 배포 유추 서버, 프로토콜 및 자세한 구성을 개략적으로 사용자 지정할 수 있습니다.
팁
각 배포 옵션은 네트워킹, 보안 및 콘텐츠 안전과 같은 추가 기능 측면에서 다양한 기능을 제공할 수 있습니다. 각 사용자에 대한 설명서를 검토하여 해당 제한 사항을 이해합니다.