모델 카탈로그 및 컬렉션
Azure Machine Learning 스튜디오의 모델 카탈로그는 생성형 AI 애플리케이션을 빌드할 수 있는 다양한 모델을 발견하고 사용할 수 있는 허브입니다. 모델 카탈로그에는 Microsoft에서 학습한 모델을 포함하여 Azure OpenAI 서비스, Mistral, Meta, Cohere, Nvidia, Hugging Face와 같은 모델 공급자의 수백 개의 모델이 포함되어 있습니다. Microsoft가 아닌 공급자의 모델은 Microsoft 제품 약관에 정의된 대로 Microsoft가 아닌 타사 제품이며 해당 모델과 함께 제공된 약관이 적용됩니다.
모델 컬렉션
모델은 모델 카탈로그의 컬렉션별로 구성됩니다. 모델 카탈로그에는 세 가지 형식의 컬렉션이 있습니다.
- Azure AI가 큐레이팅한 모델: Azure AI 플랫폼에서 원활하게 작동하도록 패키지화되고 최적화된 가장 자주 사용되는 타사의 개방형 적정 모델입니다. 이러한 모델의 사용에는 해당 모델과 함께 제공되는 모델 공급자의 사용 조건이 적용됩니다. Azure Machine Learning에 배포된 경우 모델의 가용성은 해당 Azure SLA에 따라 결정되며 Microsoft는 배포 문제에 대한 지원을 제공합니다. Meta, NVIDIA, Mistral AI와 같은 파트너의 모델은 카탈로그의 "Azure AI에 의해 큐레이팅된" 컬렉션에서 사용할 수 있는 모델의 예입니다. 이러한 모델은 카탈로그의 모델 타일에 있는 녹색 확인 표시로 식별하거나 "Azure AI에서 큐레이팅된" 컬렉션을 기준으로 필터링할 수 있습니다.
- Azure에서만 사용할 수 있는 Azure OpenAI 모델: Azure OpenAI Service를 통합하여 'Azure OpenAI' 컬렉션을 통해 높은 평가를 받는 Azure OpenAI 모델을 제공합니다. 이러한 모델은 Microsoft에서 지원하며 해당 모델의 사용에는 제품 약관 및 Azure OpenAI Service SLA가 적용됩니다.
- Hugging Face 허브의 공개 모델: HuggingFace 허브의 수백 가지 모델은 온라인 엔드포인트와의 실시간 유추를 위해 'Hugging Face' 컬렉션을 통해 액세스할 수 있습니다. Hugging Face는 HuggingFace 컬렉션에 나열된 모델을 만들고 유지 관리합니다. 도움이 필요하면 HuggingFace 포럼 또는 HuggingFace 지원을 사용합니다. Hugging Face에서 모델을 배포하는 방법에 대해 자세히 알아봅니다.
모델 카탈로그에 추가 제안: 이 양식을 사용하여 모델 카탈로그에 모델을 추가하라는 요청을 제출할 수 있습니다.
모델 카탈로그 기능 개요
Azure OpenAI 모델에 대한 자세한 내용은 Azure OpenAI Service를 참조하세요.
Azure AI에서 큐레이팅한 모델과 Hugging Face 허브의 개방형 모델의 경우 이러한 모델 중 일부는 관리형 컴퓨팅 옵션으로 배포할 수 있고, 일부 모델은 종량제 청구와 함께 서버리스 API를 사용하여 배포할 수 있습니다. 이러한 모델은 검색, 비교, 평가, 미세 조정(지원되는 경우) 및 대규모 배포가 가능하며 엔터프라이즈급 보안 및 데이터 거버넌스를 통해 생성형 AI 애플리케이션에 통합될 수 있습니다.
- 검색: 모델 카드를 검토하고, 샘플 유추를 시도하고, 코드 샘플을 탐색하여 모델을 평가, 세부 조정 또는 배포합니다.
- 비교: 업계에서 사용 가능한 모델 및 데이터 세트 전반의 벤치마크를 비교하여 사용자의 비즈니스 시나리오에 맞는 것이 무엇인지 평가합니다.
- 평가: 자체 테스트 데이터를 제공하여 모델이 특정 워크로드에 적합한지 평가합니다. 평가 메트릭을 사용하면 선택한 모델이 시나리오에서 얼마나 잘 수행되었는지 쉽게 시각화할 수 있습니다.
- 미세 조정: 자체 학습 데이터를 사용하여 미세 조정 가능한 모델을 사용자 지정하고 모든 미세 조정 작업에 대한 메트릭을 비교하여 최상의 모델을 선택합니다. 기본 제공된 최적화 기능은 미세 조정 속도를 높이고 미세 조정에 필요한 메모리와 컴퓨팅을 줄입니다.
- 배포: 유추를 위해 미리 학습된 모델이나 미세 조정된 모델을 원활하게 배포합니다. 관리형 컴퓨팅에 배포할 수 있는 모델도 다운로드할 수 있습니다.
모델 배포: 관리형 컴퓨팅 및 서버리스 API(종량제)
모델 카탈로그는 사용할 카탈로그에서 모델을 배포하는 두 가지 방법, 즉 관리형 컴퓨팅 및 서버리스 API를 제공합니다. 각 모델에 사용 가능한 배포 옵션은 다양합니다. 아래 표에서 배포 옵션의 기능과 특정 모델에 사용할 수 있는 옵션에 대해 자세히 알아봅니다. 배포 옵션을 사용한 데이터 처리에 대해 자세히 알아봅니다.
기능 | 관리되는 컴퓨팅 | 서버리스 API(종량제) |
---|---|---|
배포 환경 및 청구 | 모델 가중치는 관리형 온라인 엔드포인트가 있는 전용 Virtual Machines에 배포됩니다. 하나 이상의 배포가 가능한 관리형 온라인 엔드포인트는 유추를 위한 REST API를 제공합니다. 배포에 사용된 Virtual Machine 코어 시간에 대한 요금이 청구됩니다. | 모델에 대한 액세스는 모델에 액세스하기 위한 API를 프로비전하는 배포를 통해 이루어집니다. API는 유추를 위해 Microsoft에서 관리하는 중앙 GPU 풀에서 호스트되는 모델에 대한 액세스를 제공합니다. 이러한 액세스 모드를 "서비스로서의 모델"이라고 합니다. API에 대한 입출력에 대한 비용은 일반적으로 토큰으로 청구됩니다. 배포하기 전에 가격 책정 정보가 제공됩니다. |
API 인증 | 키 및 Microsoft Entra ID 인증. 자세히 알아보기. | 키 전용. |
콘텐츠 안전 | Azure 콘텐츠 보안 서비스 API를 사용합니다. | Azure AI 콘텐츠 보안 필터는 유추 API와 통합되어 제공됩니다. Azure AI 콘텐츠 보안 필터는 별도로 청구될 수 있습니다. |
네트워크 격리 | 온라인 엔드포인트가 있는 관리되는 Virtual Network. 자세히 알아보기. |
배포 옵션
모델 | 관리되는 컴퓨팅 | 서버리스 API(종량제) |
---|---|---|
Llama 제품군 모델 | Llama-2-7b Llama-2-7b-chat Llama-2-13b Llama-2-13b-chat Llama-2-70b Llama-2-70b-chat Llama-3-8B-Instruct Llama-3-70B-Instruct Llama-3-8B Llama-3-70B |
Llama-3-70B-Instruct Llama-3-8B-Instruct Llama-2-7b Llama-2-7b-chat Llama-2-13b Llama-2-13b-chat Llama-2-70b Llama-2-70b-chat |
Mistral 제품군 모델 | mistralai-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x22B-Instruct-v0-1 mistral-community-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x7B-v01 mistralai-Mistral-7B-Instruct-v0-2 mistralai-Mistral-7B-v01 mistralai-Mixtral-8x7B-Instruct-v01 mistralai-Mistral-7B-Instruct-v01 |
Mistral-large(2402) Mistral-large(2407) Mistral-small Ministral-3B Mistral-Nemo |
Cohere 제품군 모델 | 사용할 수 없음 | Cohere-command-r-plus-08-2024 Cohere-command-r-08-2024 Cohere-command-r-plus Cohere-command-r Cohere-embed-v3-english Cohere-embed-v3-multilingual Cohere-rerank-v3-english Cohere-rerank-v3-multilingual |
JAIS | 사용할 수 없음 | jais-30b-chat |
Phi-3 제품군 모델 | Phi-3-mini-4k-Instruct Phi-3-mini-128k-Instruct Phi-3-small-8k-Instruct Phi-3-small-128k-Instruct Phi-3-medium-4k-instruct Phi-3-medium-128k-instruct Phi-3-vision-128k-Instruct Phi-3.5-mini-Instruct Phi-3.5-vision-Instruct Phi-3.5-MoE-Instruct |
Phi-3-mini-4k-Instruct Phi-3-mini-128k-Instruct Phi-3-small-8k-Instruct Phi-3-small-128k-Instruct Phi-3-medium-4k-instruct Phi-3-medium-128k-instruct Phi-3.5-mini-Instruct Phi-3.5-vision-Instruct Phi-3.5-MoE-Instruct |
Nixtla | 사용할 수 없음 | TimeGEN-1 |
다른 모델 | 사용 가능 | 사용할 수 없음 |
관리되는 컴퓨팅
관리형 컴퓨팅을 사용하여 모델을 배포하는 기능은 Azure Machine Learning의 플랫폼 기능을 기반으로 빌드되어 전체 GenAIOps(LLMOps라고도 함) 수명 주기에 걸쳐 모델 카탈로그의 광범위한 모델 컬렉션을 원활하게 통합할 수 있습니다.
관리형 컴퓨팅에 모델을 사용할 수 있는 방법은 무엇인가요?
모델은 모델 가중치, 모델 실행을 위한 컨테이너 런타임, 모델 평가 및 미세 조정을 위한 파이프라인, 벤치마크 및 샘플을 위한 데이터 세트 등의 Machine Learning 자산 호스팅 및 배포에 대한 ML의 첫 번째 방식을 가능하게 하는 Azure Machine Learning 레지스트리를 통해 사용할 수 있습니다. 이러한 ML 레지스트리는 다음과 같은 확장성이 뛰어나고 엔터프라이즈급 인프라를 기반으로 빌드됩니다.
기본 제공 지역 복제를 통해 모든 Azure 지역에 짧은 대기 시간 액세스 모델 아티팩트를 제공합니다.
Azure Policy를 사용하여 모델에 대한 액세스를 제한하고 관리되는 가상 네트워크를 사용하여 보안 배포하는 등 엔터프라이즈 보안 요구 사항을 지원합니다.
관리형 컴퓨팅을 사용하여 배포된 모델 평가 및 미세 조정
Azure Machine Learning 파이프라인을 사용하여 Azure Machine Learning의 “Azure AI에 의해 큐레이팅된” 컬렉션을 평가하고 세부 조정할 수 있습니다. 자체 평가 및 미세 조정 코드를 가져오고 모델 가중치에 액세스하거나 기본 제품 평가 및 미세 조정 기능을 제공하는 Azure Machine Learning 구성 요소를 사용하도록 선택할 수 있습니다. 자세히 알아보려면 이 링크를 따릅니다.
관리형 컴퓨팅을 사용하여 유추를 위한 모델 배포
관리형 컴퓨팅을 사용하여 배포할 수 있는 모델은 실시간 유추를 위해 Azure Machine Learning 온라인 엔드포인트에 배포하거나 Azure Machine Learning Batch 유추에 사용하여 데이터를 일괄 처리할 수 있습니다. 관리형 컴퓨팅에 배포하려면 모델을 최적으로 실행하는 데 필요한 특정 SKU에 대해 Azure 구독에 가상 머신 할당량이 있어야 합니다. 일부 모델에서는 모델 테스트를 위한 임시 공유 할당량에 배포할 수 있습니다. 모델 배포 방법에 대한 자세한 정보:
관리형 컴퓨팅을 사용하여 생성형 AI 앱 빌드
프롬프트 흐름은 AI 애플리케이션의 프로토타입 제작, 실험, 반복 및 배포를 위한 기능을 제공합니다. 개방형 모델 LLM 도구를 사용하면 프롬프트 흐름에서 관리형 컴퓨팅으로 배포된 모델을 사용할 수 있습니다. Azure Machine Learning 확장을 통해 LangChain과 같은 널리 사용되는 LLM 도구의 관리형 컴퓨팅에 의해 노출되는 REST API를 사용할 수도 있습니다.
관리형 컴퓨팅을 사용하여 배포된 모델의 콘텐츠 보안
AACS(Azure AI 콘텐츠 보안) 서비스는 관리형 컴퓨팅에 배포된 모델과 함께 사용하여 성적 콘텐츠, 폭력, 증오, 자해 등 다양한 범주의 유해 콘텐츠와 탈옥 위험 검색 및 보호 재질 텍스트 검색과 같은 지능형 위협을 검사할 수 있습니다. Llama 2용 AACS와의 참조 통합에 대해 이 Notebook을 참조하거나 프롬프트 흐름의 콘텐츠 보안(텍스트) 도구를 사용하여 심사를 위해 모델의 응답을 AACS로 전달할 수 있습니다. 이러한 사용에 대해서는 AACS 가격 책정에 따라 별도로 요금이 청구됩니다.
모델 카탈로그에 없는 모델 작업
모델 카탈로그에서 사용할 수 없는 모델의 경우 Azure Machine Learning은 선택한 모델로 작업할 수 있는 확장 가능한 개방형 플랫폼을 제공합니다. 프레임워크와 런타임을 패키지할 수 있는 컨테이너용 Azure Machine Learning 환경 및 모델을 평가하거나 미세 조정하기 위한 코드용 Azure Machine Learning 파이프라인과 같은 Azure Machine Learning의 확장 가능한 개방형 플랫폼 기능을 사용하여 모든 프레임워크 또는 런타임으로 모델을 가져올 수 있습니다. 모델 가져오기 및 기본 제공 런타임 및 파이프라인 사용에 대한 샘플 참조는 이 Notebook을 참조하세요.
종량제 청구를 사용하는 서버리스 API
모델 카탈로그의 특정 모델을 종량제 청구를 사용하여 서버리스 API로 배포할 수 있습니다. 이 배포 방법을 MaaS(Models-as-a Service)라고 합니다. MaaS를 통해 사용 가능한 모델은 Microsoft가 관리하는 인프라에서 호스트되므로 모델 공급자의 모델에 대한 API 기반 액세스가 가능합니다. API 기반 액세스는 모델 액세스 비용을 대폭 줄이고 프로비전 환경을 크게 간소화할 수 있습니다. 대부분의 MaaS 모델에는 토큰 기반 가격 책정이 제공됩니다.
MaaS에서 타사 모델을 어떻게 사용할 수 있나요?
종량제 청구를 사용하여 서버리스 API로 배포할 수 있는 모델은 모델 공급자가 제공하지만 Microsoft 관리형 Azure 인프라에서 호스트되고 API를 통해 액세스됩니다. 모델 공급자는 사용 조건을 정의하고 모델 사용 가격을 설정하는 반면, Azure Machine Learning Service는 호스팅 인프라를 관리하고 유추 API를 사용할 수 있도록 하며 MaaS를 통해 배포된 모델에 의해 제출된 프롬프트 및 콘텐츠 출력에 대한 데이터 프로세서 역할을 합니다. 데이터 개인 정보 보호 문서에서 MaaS의 데이터 처리에 대해 자세히 알아봅니다.
MaaS의 모델 사용량에 대한 비용 지불
MaaS를 통해 배포된 모델에 대한 검색, 구독 및 사용량 환경은 Azure AI 스튜디오 및 Azure Machine Learning 스튜디오에 있습니다. 사용자는 모델 사용량에 대한 사용 조건에 동의하며 배포 중에 사용량에 대한 가격 책정 정보가 제공됩니다. 타사 공급자의 모델은 상업용 Marketplace 사용 약관에 따라 Azure Marketplace를 통해 요금이 청구되고, Microsoft의 모델은 자사 사용량 서비스로 Azure 미터를 사용하여 요금이 청구됩니다. 제품 약관에 설명된 대로 자사 사용량 서비스는 Azure 미터를 사용하여 구매하지만 Azure 서비스 약관이 적용되지 않습니다. 이러한 모델의 사용량에는 제공된 사용 조건이 적용됩니다.
MaaS를 통한 유추용 모델 배포
MaaS를 통해 모델을 배포하면 사용자는 인프라를 구성하거나 GPU를 프로비전할 필요 없이 바로 사용할 수 있는 유추 API에 액세스할 수 있어 엔지니어링 시간과 리소스가 절약됩니다. 이러한 API는 여러 LLM 도구와 통합될 수 있으며 이전 섹션에 설명된 대로 사용량이 청구됩니다.
종량제 방식의 MaaS를 통해 모델을 미세 조정
MaaS를 통해 사용 가능하고 미세 조정을 지원하는 모델의 경우 사용자는 종량제 청구를 통해 호스트된 미세 조정을 활용하여 자신이 제공하는 데이터를 사용하여 모델을 맞춤화할 수 있습니다. 자세한 내용은 Azure AI 스튜디오에서 Llama 2 모델 미세 조정을 참조하세요.
MaaS를 통해 배포된 모델이 포함된 RAG
Azure AI 스튜디오를 통해 사용자는 벡터 인덱스 및 검색 증강 생성을 활용할 수 있습니다. 서버리스 API로 배포할 수 있는 모델을 사용하면 사용자 지정 데이터를 기반으로 포함 및 유추를 생성하여 사용 사례에 맞는 답변을 생성할 수 있습니다. 자세한 내용은 증강 생성 및 인덱스 검색을 참조하세요.
제품 및 모델의 지역적 가용성
종량제 청구는 Azure 구독이 모델 공급자가 제품을 제공한 국가의 청구 계정에 속한 사용자에게만 제공됩니다. 관련 지역에서 제품을 사용할 수 있으면 사용자는 해당 모델을 배포하거나 미세 조정할 수 있는 Azure 지역에 허브/프로젝트가 있어야 합니다. 자세한 내용은 서버리스 API 엔드포인트 모델의 지역 가용성을 참조하세요.
MaaS를 통해 배포된 모델의 콘텐츠 보안
Important
이 기능은 현재 공개 미리 보기로 제공됩니다. 이 미리 보기 버전은 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다.
자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
서버리스 API를 통해 배포된 언어 모델의 경우 Azure AI는 증오, 자해, 성적, 폭력적인 콘텐츠와 같은 유해한 콘텐츠를 검색하는 Azure AI 콘텐츠 보안 텍스트 조정 필터의 기본 구성을 구현합니다. 콘텐츠 필터링(미리 보기)에 관해 자세히 알아보려면 Azure AI 콘텐츠 보안의 피해 범주를 참조하세요.
팁
서버리스 API를 통해 배포되는 특정 모델 유형에는 콘텐츠 필터링(미리 보기)을 사용할 수 없습니다. 이러한 모델 유형에는 포함 모델 및 시계열 모델이 포함됩니다.
콘텐츠 필터링(미리 보기)은 서비스 프로세스에서 콘텐츠를 생성하라는 메시지를 표시할 때 동시에 발생합니다. 이러한 사용에 대해서는 Azure AI 콘텐츠 보안 가격 책정에 따라 별도로 요금이 청구될 수 있습니다. 개별 서버리스 엔드포인트에 대해 콘텐츠 필터링(미리 보기)을 사용하지 않도록 설정할 수 있습니다.
- 언어 모델을 처음 배포할 때
- 나중에 배포 세부 정보 페이지에서 콘텐츠 필터링 토글을 선택하여
Azure AI 모델 유추 API 이외의 API를 사용하여 서버리스 API 를 통해 배포된 모델을 사용한다고 가정해 보겠습니다. 이러한 상황에서는 Azure AI 콘텐츠 보안을 사용하여 별도로 구현하지 않는 한 콘텐츠 필터링(미리 보기)이 활성화되지 않습니다.
Azure AI 콘텐츠 보안을 시작하려면 빠른 시작: 텍스트 콘텐츠 분석을 참조하세요. 서버리스 API를 통해 배포된 모델을 사용할 때 콘텐츠 필터링(미리 보기)을 사용하지 않으면 사용자를 유해한 콘텐츠에 노출시킬 위험이 높아집니다.
서버리스 API를 통해 배포된 모델에 대한 네트워크 격리
서버리스 API로 배포된 모델의 엔드포인트는 배포가 존재하는 작업 영역의 PNA(공용 네트워크 액세스) 플래그 설정을 따릅니다. MaaS 엔드포인트를 보호하려면 작업 영역에서 PNA 플래그를 사용하지 않도록 설정합니다. 작업 영역에 프라이빗 엔드포인트를 사용하여 클라이언트에서 엔드포인트로의 인바운드 통신을 보호할 수 있습니다.
작업 영역에 대한 PNA 플래그를 설정하려면 다음을 수행합니다.
- Azure Portal로 이동합니다.
- Azure Machine Learning을 검색하고 작업 영역 목록에서 작업 영역을 선택합니다.
- 개요 페이지에서 왼쪽 탐색 창을 사용하여 설정>네트워킹으로 이동합니다.
- 퍼블릭 액세스 탭에서 공용 네트워크 액세스 플래그에 대한 설정을 구성할 수 있습니다.
- 변경 내용을 저장합니다. 변경 내용을 전파하는 데 최대 5분이 걸릴 수 있습니다.
제한 사항
- 2024년 7월 11일 이전에 프라이빗 엔드포인트를 만든 작업 영역이 있는 경우 이 작업 영역에 추가된 새 MaaS 엔드포인트는 해당 네트워킹 구성을 따르지 않습니다. 대신 새 배포가 작업 영역의 네트워킹 구성을 따를 수 있도록 작업 영역에 대한 새 프라이빗 엔드포인트를 만들고 작업 영역에서 서버리스 API 배포를 새로 만들어야 합니다.
- 2024년 7월 11일 이전에 만든 MaaS 배포가 있는 작업 영역이 있고 이 작업 영역에서 프라이빗 엔드포인트를 사용하도록 설정하는 경우 기존 MaaS 배포는 작업 영역의 네트워킹 구성을 따르지 않습니다. 작업 영역의 서버리스 API 배포가 작업 영역의 구성을 따르려면 배포를 다시 만들어야 합니다.
- 프라이빗 작업 영역에는 PNA 플래그가 비활성화되어 있으므로 프라이빗 작업 영역의 MaaS 배포에는 On Your Data 지원을 사용할 수 없습니다.
- 네트워크 구성 변경(예: PNA 플래그를 사용하거나 사용하지 않도록 설정)은 전파하는 데 최대 5분이 걸릴 수 있습니다.
자세한 정보
- Azure Machine Learning 스튜디오 UI 또는 코드 기반 방법을 사용하여 미세 조정, 평가 및 배포를 위해 Azure Machine Learning에서 기초 모델을 사용하는 방법을 알아봅니다.
- Azure Machine Learning 스튜디오의 모델 카탈로그를 살펴봅니다. 카탈로그를 탐색하려면 Azure Machine Learning 작업 영역이 필요합니다.
- Azure Machine Learning으로 큐레이팅된 모델을 평가, 미세 조정 및 배포합니다.