Serviço de modelo com o Azure Databricks
Este artigo descreve o Mosaic AI Model Serving, incluindo suas vantagens e limitações.
O que é o Mosaic AI Model Serving?
O Mosaic AI Model Serving fornece uma interface unificada para implantar, controlar e consultar modelos de IA para inferência em tempo real e em lote. Cada modelo que você atende está disponível como uma API REST que você pode integrar ao seu aplicativo Web ou cliente.
O Serviço de Modelo fornece um serviço altamente disponível e de baixa latência para implantar modelos. O serviço aumenta ou reduz verticalmente automaticamente para atender às alterações de demanda, economizando custos de infraestrutura ao otimizar o desempenho de latência. Essa funcionalidade usa computação sem servidor. Consulte a página preços do Serviço de Modelo para obter mais detalhes.
O serviço de modelo dá suporte ao serviço:
- Modelos personalizados. Estes são modelos python empacotados no formato MLflow. Eles podem ser registrados no Catálogo do Unity ou no registro de modelo de workspace. Os exemplos incluem modelos de transformador scikit-learn, XGBoost, PyTorch e Hugging Face.
- O atendimento de agentes tem suporte como um modelo personalizado. Confira Implantar um agente para um aplicativo de IA generativa
- Modelos abertos de última geração disponibilizados pelas APIs de Modelos de Base. Esses modelos são arquiteturas de modelo de base com curadoria que dão suporte à inferência otimizada. Modelos básicos, como Meta-Llama-3.1-70B-Instruct, GTE-Large e Mistral-7B estão disponíveis para uso imediato com preços de pagamento por token , e cargas de trabalho que exigem garantias de desempenho e variantes de modelo ajustadas podem ser implantadas com taxa de transferência provisionada.
- O Databricks recomenda usar
ai_query
com o Serviço de Modelo para inferência em lote. Para experimentação rápida,ai_query
pode ser usado com endpoints de pagamento por token. Quando você estiver pronto para executar a inferência em lote em dados grandes ou de produção, o Databricks recomenda o uso de pontos de extremidade de taxa de transferência provisionados para um desempenho mais rápido. Consulte APIs do Modelo de Base de taxa de transferência provisionada para saber como criar um ponto de extremidade de taxa de transferência provisionada.- Consulte Executar inferência em lote usando ai_query.
- Para começar a usar a inferência em lote com LLMs em tabelas do Catálogo do Unity, consulte os exemplos de notebook em Inferência em lote usando a taxa de transferência provisionada de APIs do Foundation Model.
- O Databricks recomenda usar
- Modelos externos. Estes são modelos de IA generativa hospedados fora do Databricks. Os exemplos incluem modelos como o GPT-4 da OpenAI, o Claude da Anthropic e outros. Os pontos de extremidade que atendem modelos externos podem ser controlados centralmente e os clientes podem estabelecer limites de taxa e controle de acesso para eles.
Observação
Você pode interagir com modelos de linguagem grandes com suporte usando o Playground de IA. O Playground de IA é um ambiente semelhante ao chat em que você pode testar, solicitar e comparar LLMs. Essa funcionalidade está disponível no workspace do Azure Databricks.
O serviço de modelo oferece uma API REST unificada e uma API de Implantação do MLflow para tarefas CRUD e consulta. Além disso, ele fornece uma única interface do usuário para gerenciar todos os seus modelos e seus respectivos pontos de extremidade de serviço. Você também pode acessar modelos diretamente do SQL usando funções de IA para facilitar a integração aos fluxos de trabalho de análise.
Para obter um tutorial introdutório sobre como fornecer modelos personalizados no Azure Databricks, consulte Tutorial: Implantar e consultar um modelo personalizado.
Para obter um tutorial de introdução sobre como consultar um modelo de base no Databricks, confira Introdução à consulta de LLMs no Databricks.
Por que usar o Serviço de Modelo?
- Implantar e consultar quaisquer modelos: o fornecimento de modelo fornece uma interface unificada para que você possa gerenciar todos os modelos em apenas um local e consultá-los com apenas uma API, independentemente de eles estarem hospedados no Databricks ou externamente. Essa abordagem simplifica o processo de experimentar, personalizar e implantar modelos em produção em várias nuvens e provedores.
- Personalize modelos de modo seguro com seus dados privados: criado com base na plataforma Data Intelligence, o Model Serving simplifica a integração de recursos e inserções em modelos por meio da integração nativa com a Databricks Feature Store e o Mosaic AI Vector Search. Para maior precisão e compreensão contextual, os modelos podem ser ajustados com os dados proprietários e implantados sem esforço no fornecimento de modelo.
- Controlar e monitorar modelos: gerencie centralmente todos os pontos de extremidade de modelo em apenas um lugar, incluindo aqueles hospedados externamente. Você pode gerenciar permissões, acompanhar e definir limites de uso e monitorar a qualidade de todos os tipos de modelos. Isso permite democratizar o acesso ao SaaS e abrir LLMs em sua organização, garantindo que os guardrails apropriados estejam em vigor.
- Reduza o custo com inferência otimizada e dimensionamento rápido: o Databricks implementou uma variedade de otimizações para garantir que você obtenha a melhor taxa de transferência e latência para modelos grandes. Os pontos de extremidade são escalados ou reduzidos verticalmente automaticamente para atender às alterações de demanda, economizando custos de infraestrutura ao otimizar o desempenho de latência. Monitore os custos de serviço do modelo.
Observação
Para cargas de trabalho sensíveis à latência ou que envolvem um alto número de consultas por segundo, o Databricks recomenda usar a otimização de rota em pontos de extremidade de serviço de modelo personalizado. Entre em contato com sua equipe de conta do Databricks para garantir que seu workspace esteja habilitado para alta escalabilidade.
- Traga confiabilidade e segurança para o fornecimento de modelo: o fornecimento de modelo foi projetado para uso de produção de alta disponibilidade e baixa latência e pode dar suporte a mais de 25 mil consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho de serviço são protegidas por várias camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais confidenciais.
Observação
O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização para implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão de modelo conterá os patches mais recentes. Entre em contato com a equipe da sua conta do Databricks para obter mais informações.
Requisitos
- Modelo registrado no Catálogo do Unity ou no Registro de Modelo do Workspace.
- Permissões nos modelos registrados, conforme descrito em Servindo ACLs de pontos de extremidade.
- MLflow 1.29 ou superior.
- Se você estiver usando o Link Privado do Azure para respeitar as regras de entrada relacionadas à rede configuradas no workspace, o Link Privado do Azure só terá suporte para pontos de extremidade de serviço de modelo que usam taxa de transferência provisionada ou pontos de extremidade que atendem a modelos personalizados. Confira Configurar a conectividade privada por meio da computação sem servidor.
Habilitar o Serviço de Modelo no seu workspace
Nenhuma etapa adicional é necessária para habilitar o Serviço de Modelo em seu workspace.
Limitações e disponibilidade de região
O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Veja Limites e regiões do serviço de modelo. Se tiver comentários sobre esses limites ou um ponto final numa região sem suporte, contacte a sua equipa de conta Databricks.
Proteção de dados no Serviço de Modelo
O Databricks leva a segurança de dados a sério. O Databricks entende a importância dos dados que você analisa usando o Mosaic AI Model Serving e implementa os seguintes controles de segurança para proteger seus dados.
- Cada solicitação do cliente para Model Serving é logicamente isolada, autenticada e autorizada.
- O Mosaic AI Model Serving criptografa todos os dados inativos (AES-256) e em trânsito (TLS 1.2+).
Para todas as contas pagas, o Mosaic AI Model Serving não usa entradas de usuário enviadas ao serviço ou saídas do serviço para treinar modelos ou melhorar os serviços do Databricks.
Para APIs de Modelo do Databricks Foundation, como parte do fornecimento do serviço, o Databricks pode processar e armazenar temporariamente entradas e saídas para fins de prevenção, detecção e mitigação de abusos ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região que seu workspace por até trinta (30) dias e só podem ser acessadas para detectar e responder a questões de segurança ou abuso. As APIs do Modelo de Fundação são um Serviço Designado do Databricks, o que significa que ele adere aos limites de residência de dados conforme implementado pelo Databricks Geos.
Recursos adicionais
- Introdução à consulta de LLMs no Databricks.
- Tutorial: Implantar e consultar um modelo personalizado
- Introdução à criação de aplicativos de IA generativa no Databricks
- Implantar modelos personalizados.
- Migrar para o Serviço de Modelo
- Migrar os pontos de extremidade de serviço de LLM otimizados para a taxa de transferência provisionada