Mosaic AI 모델 서비스를 사용하여 모델 배포
이 문서에서는 실시간 서비스 및 일괄 처리 유추를 위해 AI 및 ML 모델을 배포하기 위한 Databricks 솔루션인 Mosaic AI Model Serving에 대해 설명합니다.
Mosaic AI 모델 서비스란?
Mosaic AI Model Serving는 실시간 및 일괄 처리 유추를 위해 AI 모델을 배포, 관리 및 쿼리하는 통합 인터페이스를 제공합니다. 서비스하는 각 모델은 웹 또는 클라이언트 애플리케이션에 통합할 수 있는 REST API로 사용할 수 있습니다.
모델 서비스 제공은 모델을 배포하기 위해 가용성이 높고 대기 시간이 짧은 서비스를 제공합니다. 서비스는 수요 변화에 맞게 자동으로 확장 또는 축소되며 대기 시간 성능을 최적화하면서 인프라 비용을 절감합니다. 이 기능은 서버리스 컴퓨팅을 사용합니다. 자세한 내용은 모델 제공 가격 책정 페이지를 참조하세요.
모델 서비스 제공은 CRUD 및 쿼리 작업에 대한 통합 REST API 및 MLflow 배포 API를 제공합니다. 또한 모든 모델과 해당 서비스 엔드포인트를 관리하는 단일 UI를 제공합니다. AI 함수를 사용하여 SQL에서 직접 모델에 액세스하여 분석 워크플로에 쉽게 통합할 수도 있습니다.
get 시작에 대한 다음 가이드를 참조하세요.
- Azure Databricks에서 사용자 지정 모델을 제공하는 방법에 대한 소개 자습서는 자습서: 사용자 지정 모델 배포 및 쿼리를 참조하세요.
- Databricks에서 기본 모델을 쿼리하는 방법에 대한 시작 자습서는 DatabricksLLM 쿼리를 시작한
참조하세요. - 일괄 처리 유추 및 예측을 위한 모델 배포에 대해서는 을(를) 참조하세요.
배포할 수 있는 모델
모델 제공은 다음 모델 유형에 대한 실시간 및 일괄 처리 유추를 지원합니다.
-
사용자 지정 모델. MLflow 형식으로 패키지된 Python 모델입니다. Unity Catalog 또는 작업 영역 모델 레지스트리에 등록할 수 있습니다. 예를 들어 scikit-learn, XGBoost, PyTorch 및 Hugging Face 변환기 모델이 있습니다.
- 에이전트 제공은 사용자 지정 모델로 지원됩니다. 생성형 AI 응용 프로그램에 대한 에이전트 배포를 참조하세요.
-
기초 모델은.
-
Databricks 호스팅 기본 모델은 메타 라마와 같은. 이러한 모델은 Foundation Model API사용하여 사용할 수 있습니다. 이러한 모델은 최적화된 유추를 지원하는 큐레이팅된 파운데이션 모델 아키텍처입니다. Meta-Llama-3.3-70B-Instruct, GTE-Large 및 Mistral-7B와 같은 기본 모델은
토큰당 종량제 가격 책정에 즉시 사용할 수 있으며, 성능 보장 및 미세 조정된 모델 변형이 필요한 워크로드는 프로비전된 처리량배포할 수 있습니다. - Databricks 외부에서 호스트되는 Foundation 모델은 OpenAI의 GPT-4와 같은. 이러한 모델은 외부 모델를 사용하여 액세스할 수 있습니다. 이러한 모델을 제공하는 엔드포인트는 Azure Databricks에서 중앙에서 제어할 수 있으므로 조직 내에서 OpenAI 및 Anthropic과 같은 다양한 LLM providers사용 및 관리를 간소화할 수 있습니다.
-
Databricks 호스팅 기본 모델은 메타 라마와 같은. 이러한 모델은 Foundation Model API사용하여 사용할 수 있습니다. 이러한 모델은 최적화된 유추를 지원하는 큐레이팅된 파운데이션 모델 아키텍처입니다. Meta-Llama-3.3-70B-Instruct, GTE-Large 및 Mistral-7B와 같은 기본 모델은
참고 항목
AI Playground를 사용하여 지원되는 대규모 언어 모델과 상호 작용할 수 있습니다. AI 플레이그라운드는 LLM을 테스트, 프롬프트 및 비교할 수 where 채팅과 유사한 환경입니다. 이 기능은 Azure Databricks 작업 영역에서 사용할 수 있습니다.
모델 서비스를 사용하는 이유는 무엇인가요?
- 모든 모델 배포 및 쿼리: 모델 제공은 Databricks 또는 외부에 호스트되는지 여부에 관계없이 한 위치에서 모든 모델을 관리하고 단일 API로 쿼리할 수 있는 통합 인터페이스를 제공합니다. 이 방법은 다양한 클라우드 및 providers프로덕션 환경에서 모델을 실험, 사용자 지정 및 배포하는 프로세스를 간소화합니다.
- 개인 데이터를 사용하여 모델을 안전하게 사용자 지정: 데이터 인텔리전스 플랫폼을 기반으로 하는 모델 제공은 Databricks 기능 저장소 및 Mosaic AI 벡터 검색과의 네이티브 통합을 통해 기능 및 포함을 모델에 쉽게 통합할 수 있습니다. 더욱 향상된 정확도와 상황별 이해를 위해 모델을 독점 데이터로 미세 조정하고 모델 제공에 쉽게 배포할 수 있습니다.
- 모델 관리 및 모니터링: 서비스 UI를 사용하면 외부에서 호스트되는 엔드포인트를 포함하여 한 곳에서 모든 모델 엔드포인트를 중앙에서 관리할 수 있습니다. 사용 권한을 관리하고, set 사용 제한을 추적하며, 모든 유형의 모델의품질을 모니터링할 수 있습니다. 이를 통해 적절한 가드레일이 준비되도록 하면서 SaaS에 대한 액세스를 민주화하고 조직 내에서 LLM을 열 수 있습니다.
- 최적화된 유추 및 빠른 크기 조정사용하여 비용 절감: Databricks는 대규모 모델에 대한 최상의 처리량 및 대기 시간을 get 수 있도록 다양한 최적화를 구현했습니다. 엔드포인트는 수요 변화에 맞게 자동으로 확장 또는 축소되며, 대기 시간 성능을 최적화하면서 인프라 비용을 절감합니다. 비용 제공 모델을 모니터링합니다.
참고 항목
대기 시간이 중요하거나 초당 쿼리 수가 많은 워크로드의 경우 Databricks는 엔드포인트를 제공하는 사용자 지정 모델에서 경로 최적화를 사용하는 것이 좋습니다. Databricks 계정 팀에 문의하여 높은 확장성을 위해 작업 영역을 사용하도록 설정했는지 확인합니다.
- 모델 서비스 제공에 안정성 및 보안 제공: 모델 제공은 고가용성, 짧은 대기 시간 프로덕션 사용을 위해 설계되었으며 오버헤드 대기 시간이 50ms 미만인 초당 25K 이상의 쿼리를 지원할 수 있습니다. 서비스 워크로드는 여러 보안 계층으로 보호되어 가장 중요한 작업에서도 안전하고 안정적인 환경을 보장합니다.
참고 항목
모델 제공은 프로덕션 배포에 대한 불안정의 위험 때문에 기존 모델 이미지에 보안 패치를 제공하지 않습니다. 새 모델 버전에서 만든 새 모델 이미지에는 최신 패치가 포함됩니다. 더 자세한 내용은 Databricks 계정 팀에 문의하세요.
요구 사항
- 등록된 모델은 Unity Catalog 또는 작업 영역 모델 레지스트리에 있습니다.
-
서비스 엔드포인트 ACL에 설명된 대로 등록된 모델에 대한 권한입니다.
- MLflow 1.29 이상
- Azure Private Link를 사용하여 작업 영역에 구성된 네트워킹 관련 수신 규칙을 준수하는 경우 Azure Private Link는 프로비전된 처리량을 사용하는 엔드포인트 또는 사용자 지정 모델을 제공하는 엔드포인트를 제공하는 모델에 대해서만 지원됩니다. 서버리스 컴퓨팅에서 프라이빗 연결 구성을 참조하세요.
작업 영역에 대해 모델 서비스를 사용하도록 설정
작업 영역에서 모델 제공을 사용하도록 설정하려면 추가 단계가 필요하지 않습니다.
제한 사항 및 지역 가용성
Mosaic AI 모델 서비스 제공은 안정적인 성능을 보장하기 위해 기본 제한을 적용합니다. 모델 서비스 제한 및 지역을 참조하세요. 이러한 제한 또는 지원되지 않는 지역의 엔드포인트에 대한 피드백이 있는 경우 Databricks 계정 팀에 문의하세요.
모델 서비스 내 데이터 보호.
Databricks는 데이터 보안을 중요하게 생각합니다. Databricks는 Mosaic AI 모델 서비스를 사용하여 분석하는 데이터의 중요성을 이해하고 데이터를 보호하기 위해 다음 보안 제어를 구현합니다.
- 모델 서비스에 대한 모든 고객 요청은 논리적으로 격리되고 인증되며 권한이 부여됩니다.
- Mosaic AI 모델 서비스 제공은 미사용 데이터(AES-256) 및 전송 중인 모든 데이터(TLS 1.2 이상)를 암호화합니다.
모든 유료 계정의 경우 Mosaic AI Model Serving는 서비스에 제출된 사용자 입력 또는 서비스의 출력을 사용하여 모델을 학습시키거나 Databricks 서비스를 개선하지 않습니다.
Databricks Foundation 모델 API의 경우 서비스 제공의 일환으로 Databricks는 남용 또는 유해한 사용을 방지, 감지 및 완화하기 위해 입력 및 출력을 일시적으로 처리하고 저장할 수 있습니다. 입력 및 출력은 다른 고객의 입력과 격리되고, 최대 30일 동안 작업 영역과 동일한 지역에 저장되며, 보안 또는 남용 문제를 감지하고 대응하는 데만 액세스할 수 있습니다. 파운데이션 모델 API는 Databricks Geos에서 구현하는 데이터 상주 경계를 준수하는 Databricks 지정 서비스입니다.
추가 리소스
- Get Databricks에서 LLM을 쿼리하기 시작했습니다.
- 자습서: 사용자 지정 모델 배포 및 쿼리
- 자습서: OpenAI 모델을 쿼리하는 외부 모델 엔드포인트 만들기
- Databricks에서 Gen AI 앱 빌드 소개
- ai_query을 사용하여 LLM의 일괄 추론 수행
- 모델 서비스로 마이그레이션