Serviço de modelos com o Azure Databricks
Este artigo descreve o Mosaic AI Model Serving, incluindo suas vantagens e limitações.
O que é o Mosaic AI Model Serving?
O Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos de IA para inferência em tempo real e em lote. Cada modelo que você atende está disponível como uma API REST que você pode integrar em seu aplicativo Web ou cliente.
O Model Serving fornece um serviço altamente disponível e de baixa latência para a implantação de modelos. O serviço aumenta ou diminui automaticamente para atender às mudanças de demanda, economizando custos de infraestrutura e otimizando o desempenho de latência. Essa funcionalidade usa computação sem servidor. Consulte a página de preços do Model Serving para obter mais detalhes.
O modelo de serviço suporta servir:
- Modelos personalizados. Estes são modelos Python empacotados no formato MLflow. Eles podem ser registrados no Unity Catalog ou no registro do modelo de espaço de trabalho. Exemplos incluem os modelos de transformador scikit-learn, XGBoost, PyTorch e Hugging Face.
- O serviço de agente é suportado como um modelo personalizado. Consulte Implantar um agente para aplicativo de IA generativa
- Modelos abertos de última geração disponibilizados pelas APIs do Foundation Model. Esses modelos são arquiteturas de modelo de base selecionadas que suportam inferência otimizada. Modelos básicos, como Meta-Llama-3.1-70B-Instruct, GTE-Large e Mistral-7B estão disponíveis para uso imediato com preços de pagamento por token , e cargas de trabalho que exigem garantias de desempenho e variantes de modelo ajustadas podem ser implantadas com taxa de transferência provisionada.
- O Databricks recomenda o uso
ai_query
com o Model Serving para inferência em lote. Para experimentação rápida,ai_query
pode ser usado com endpoints pay-per-token. Quando você estiver pronto para executar a inferência em lote em dados grandes ou de produção, o Databricks recomenda o uso de pontos de extremidade de taxa de transferência provisionados para um desempenho mais rápido. Consulte APIs de modelo de base de taxa de transferência provisionada para saber como criar um ponto de extremidade de taxa de transferência provisionada.- Consulte Executar inferência em lote usando ai_query.
- Para começar a usar a inferência em lote com LLMs em tabelas do Catálogo Unity, consulte os exemplos de bloco de anotações em Inferência em lote usando a taxa de transferência provisionada de APIs do Modelo de Base.
- O Databricks recomenda o uso
- Modelos externos. Estes são modelos de IA generativa que são hospedados fora do Databricks. Exemplos incluem modelos como GPT-4 da OpenAI, Claude da Anthropic e outros. Os endpoints que atendem modelos externos podem ser controlados centralmente e os clientes podem estabelecer limites de taxa e controle de acesso para eles.
Nota
Você pode interagir com modelos de linguagem grandes suportados usando o AI Playground. O AI Playground é um ambiente semelhante a um bate-papo onde você pode testar, solicitar e comparar LLMs. Essa funcionalidade está disponível em seu espaço de trabalho do Azure Databricks.
O serviço de modelo oferece uma API REST unificada e uma API de implantação MLflow para tarefas CRUD e de consulta. Além disso, ele fornece uma única interface do usuário para gerenciar todos os seus modelos e seus respetivos pontos de extremidade de serviço. Você também pode acessar modelos diretamente do SQL usando funções de IA para fácil integração em fluxos de trabalho de análise.
Para obter um tutorial introdutório sobre como servir modelos personalizados no Azure Databricks, consulte Tutorial: Implantar e consultar um modelo personalizado.
Para obter um tutorial de introdução sobre como consultar um modelo de base no Databricks, consulte Introdução à consulta de LLMs no Databricks.
Porquê usar o Model Serving?
- Implantar e consultar quaisquer modelos: o Model Serving fornece uma interface unificada para que você possa gerenciar todos os modelos em um único local e consultá-los com uma única API, independentemente de estarem hospedados no Databricks ou externamente. Essa abordagem simplifica o processo de experimentação, personalização e implantação de modelos em produção em várias nuvens e provedores.
- Personalize modelos com segurança com seus dados privados: Construído em uma plataforma de inteligência de dados, o Model Serving simplifica a integração de recursos e incorporações em modelos por meio da integração nativa com o Databricks Feature Store e o Mosaic AI Vetor Search. Para melhorar ainda mais a precisão e a compreensão contextual, os modelos podem ser ajustados com dados proprietários e implantados sem esforço no Model Serving.
- Governar e monitorar modelos: a interface do usuário de serviço permite gerenciar centralmente todos os pontos de extremidade do modelo em um só lugar, incluindo aqueles que são hospedados externamente. Você pode gerenciar permissões, controlar e definir limites de uso e monitorar a qualidade de todos os tipos de modelos. Isso permite que você democratize o acesso a SaaS e LLMs abertos em sua organização, garantindo que os guardrails apropriados estejam em vigor.
- Reduza os custos com inferência otimizada e escalabilidade rápida: a Databricks implementou uma variedade de otimizações para garantir que você obtenha a melhor taxa de transferência e latência para modelos grandes. Os endpoints aumentam ou diminuem automaticamente a escala para atender às mudanças de demanda, economizando custos de infraestrutura e otimizando o desempenho de latência. Monitore os custos de atendimento do modelo.
Nota
Para cargas de trabalho que são sensíveis à latência ou envolvem um alto número de consultas por segundo, o Databricks recomenda o uso da otimização de rota em pontos de extremidade de serviço de modelo personalizado. Entre em contato com sua equipe de conta Databricks para garantir que seu espaço de trabalho esteja habilitado para alta escalabilidade.
- Traga confiabilidade e segurança ao Model Serving: o Model Serving foi projetado para uso de produção de alta disponibilidade e baixa latência e pode suportar mais de 25K consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho de serviço são protegidas por várias camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais sensíveis.
Nota
O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com sua equipe de conta Databricks para obter mais informações.
Requerimentos
- Modelo registrado no Catálogo Unity ou no Registro do Modelo de Espaço de Trabalho.
- Permissões nos modelos registrados, conforme descrito em Servindo ACLs de ponto de extremidade.
- MLflow 1.29 ou superior.
- Se você estiver usando o Azure Private Link para respeitar as regras de entrada relacionadas à rede configuradas no espaço de trabalho, o Azure Private Link só terá suporte para pontos de extremidade de serviço de modelo que usam taxa de transferência provisionada ou pontos de extremidade que servem modelos personalizados. Consulte Configurar conectividade privada a partir de computação sem servidor.
Ativar o Model Serving para o seu espaço de trabalho
Nenhuma etapa adicional é necessária para habilitar o Model Serving em seu espaço de trabalho.
Limitações e disponibilidade da região
O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Consulte Limites e regiões de serviço do modelo. Se você tiver comentários sobre esses limites ou um ponto de extremidade em uma região sem suporte, entre em contato com sua equipe de conta do Databricks.
Proteção de dados no Model Serving
A Databricks leva a segurança de dados a sério. A Databricks entende a importância dos dados que você analisa usando o Mosaic AI Model Serving e implementa os seguintes controles de segurança para proteger seus dados.
- Cada solicitação do cliente ao Model Serving é logicamente isolada, autenticada e autorizada.
- O Mosaic AI Model Serving criptografa todos os dados em repouso (AES-256) e em trânsito (TLS 1.2+).
Para todas as contas pagas, o Mosaic AI Model Serving não usa entradas de usuário enviadas ao serviço ou saídas do serviço para treinar quaisquer modelos ou melhorar quaisquer serviços Databricks.
Para APIs do Databricks Foundation Model, como parte do fornecimento do serviço, o Databricks pode processar e armazenar temporariamente entradas e saídas com a finalidade de prevenir, detetar e mitigar abusos ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região do seu espaço de trabalho por até 30 (trinta) dias e acessíveis apenas para detetar e responder a preocupações de segurança ou abuso. As APIs do Modelo de Base são um Serviço Designado do Databricks, o que significa que ele adere aos limites de residência de dados conforme implementado pelo Databricks Geos.