Partilhar via


Implante modelos usando o Mosaic AI Model Serving

Este artigo descreve o Mosaic AI Model Serving, a solução Databricks para implantar modelos de IA e ML para serviço em tempo real e inferência em lote.

O que é o Mosaic AI Model Serving?

O Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos de IA para inferência em tempo real e em lote. Cada modelo que você atende está disponível como uma API REST que você pode integrar em seu aplicativo Web ou cliente.

O Model Serving fornece um serviço altamente disponível e de baixa latência para a implantação de modelos. O serviço aumenta ou diminui automaticamente para atender às mudanças de demanda, economizando custos de infraestrutura e otimizando o desempenho de latência. Essa funcionalidade usa computação sem servidor. Consulte a página de preços do Model Serving para obter mais detalhes.

O Model Serving oferece uma API REST unificada e uma API de implantação MLflow para tarefas CRUD e de consulta. Além disso, ele fornece uma única interface do usuário para gerenciar todos os seus modelos e seus respetivos pontos de extremidade de serviço. Você também pode acessar modelos diretamente do SQL usando funções de IA para fácil integração em fluxos de trabalho de análise.

Consulte os seguintes guias para iniciar o get:

Modelos que você pode implantar

O serviço de modelo suporta inferência em tempo real e em lote para os seguintes tipos de modelo:

  • Modelos personalizados. Estes são modelos Python empacotados no formato MLflow. Eles podem ser registrados no Unity Catalog ou no registro do modelo de espaço de trabalho. Exemplos incluem os modelos de transformador scikit-learn, XGBoost, PyTorch e Hugging Face.
  • Modelos de Base.
    • Modelos fundamentais hospedados pelo Databricks como Meta Llama. Esses modelos estão disponíveis usando APIs do Foundation Model. Esses modelos são arquiteturas de modelo de base selecionadas que suportam inferência otimizada. Modelos básicos, como o Meta-Llama-3.3-70B-Instruct, GTE-Large e Mistral-7B, estão disponíveis para utilização imediata com preços por token no formato . As cargas de trabalho que requerem garantias de desempenho e variantes de modelos ajustados podem ser implementadas comde taxa de transferência provisionada .
    • Modelos Fundamentais hospedados fora do Databricks, como GPT-4 da OpenAI. Estes modelos são acessíveis usando Modelos externos. Os endpoints que desempenham funções para esses modelos podem ser governados centralmente a partir do Azure Databricks, para simplificar o uso e a gestão de vários LLM providers, como OpenAI e Anthropic, na sua organização.

Nota

Você pode interagir com modelos de linguagem grandes suportados usando o AI Playground. O AI Playground é um ambiente semelhante a um bate-papo where onde você pode testar, solicitar e comparar LLMs. Essa funcionalidade está disponível em seu espaço de trabalho do Azure Databricks.

Porquê usar o Model Serving?

  • Implantar e consultar quaisquer modelos: o Model Serving fornece uma interface unificada para que você possa gerenciar todos os modelos em um único local e consultá-los com uma única API, independentemente de estarem hospedados no Databricks ou externamente. Essa abordagem simplifica o processo de experimentação, personalização e implantação de modelos em produção em várias plataformas de cloud e providers.
  • Personalize modelos com segurança com seus dados privados: Construído em uma plataforma de inteligência de dados, o Model Serving simplifica a integração de recursos e incorporações em modelos por meio da integração nativa com o Databricks Feature Store e o Mosaic AI Vetor Search. Para melhorar ainda mais a precisão e a compreensão contextual, os modelos podem ser ajustados com dados proprietários e implantados sem esforço no Model Serving.
  • Governar e monitorar modelos: a interface do usuário de serviço permite gerenciar centralmente todos os pontos de extremidade do modelo em um só lugar, incluindo aqueles que são hospedados externamente. Você pode gerenciar permissões, rastrear e set limites de uso e monitorar a qualidade de todos os tipos de modelos usando AI Gateway. Isso permite que você democratize o acesso a SaaS e LLMs abertos em sua organização, garantindo que os guardrails apropriados estejam em vigor.
  • Reduza os custos com inferência otimizada ede escalonamento rápido: a Databricks implementou uma série de otimizações para garantir que você get a melhor taxa de transferência e latência para modelos grandes. Os endpoints aumentam ou diminuem automaticamente a escala para atender às mudanças de demanda, economizando custos de infraestrutura e otimizando o desempenho de latência. Monitore os custos de atendimento do modelo.

Nota

Para cargas de trabalho que são sensíveis à latência ou envolvem um alto número de consultas por segundo, o Databricks recomenda o uso da otimização de rota em pontos de extremidade de serviço de modelo personalizado. Entre em contato com sua equipe de conta Databricks para garantir que seu espaço de trabalho esteja habilitado para alta escalabilidade.

  • Traga confiabilidade e segurança ao Model Serving: o Model Serving foi projetado para uso de produção de alta disponibilidade e baixa latência e pode suportar mais de 25K consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho de serviço são protegidas por várias camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais sensíveis.

Nota

O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com sua equipe de conta Databricks para obter mais informações.

Requerimentos

  • Modelo registado no Unity ou no Registro de Modelos do Espaço de Trabalho.
  • Permissões nos modelos registrados, conforme descrito em Servindo ACLs de ponto de extremidade.
    • MLflow 1.29 ou superior.
  • Se você estiver usando o Azure Private Link para respeitar as regras de entrada relacionadas à rede configuradas no espaço de trabalho, o Azure Private Link só terá suporte para pontos de extremidade de serviço de modelo que usam taxa de transferência provisionada ou pontos de extremidade que servem modelos personalizados. Consulte Configurar conectividade privada a partir de computação sem servidor.

Ativar o Model Serving para o seu espaço de trabalho

Nenhuma etapa adicional é necessária para habilitar o Model Serving em seu espaço de trabalho.

Limitações e disponibilidade da região

O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Consulte Limites e regiões de serviço do modelo. Se você tiver comentários sobre esses limites ou um ponto de extremidade em uma região sem suporte, entre em contato com sua equipe de conta do Databricks.

Proteção de dados no Model Serving

A Databricks leva a segurança de dados a sério. A Databricks entende a importância dos dados que você analisa usando o Mosaic AI Model Serving e implementa os seguintes controles de segurança para proteger seus dados.

  • Cada solicitação do cliente ao Model Serving é logicamente isolada, autenticada e autorizada.
  • O Mosaic AI Model Serving criptografa todos os dados em repouso (AES-256) e em trânsito (TLS 1.2+).

Para todas as contas pagas, o Mosaic AI Model Serving não usa entradas de usuário enviadas ao serviço ou saídas do serviço para treinar quaisquer modelos ou melhorar quaisquer serviços Databricks.

Para APIs do Databricks Foundation Model, como parte do fornecimento do serviço, o Databricks pode processar e armazenar temporariamente entradas e saídas com a finalidade de prevenir, detetar e mitigar abusos ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região do seu espaço de trabalho por até 30 (trinta) dias e acessíveis apenas para detetar e responder a preocupações de segurança ou abuso. As APIs do Modelo de Base são um Serviço Designado do Databricks, o que significa que ele adere aos limites de residência de dados conforme implementado pelo Databricks Geos.

Recursos adicionais