Mosaic AI Gateway

Artigo
02/07/2025

Importante

Esse recurso está em uma versão prévia.

O que é o Mosaic AI Gateway?

O Gateway de IA do Mosaico foi projetado para simplificar o uso e o gerenciamento de modelos e agentes de IA generativos em uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para modelar pontos de extremidade de serviço. Ele também permite que você execute, proteja e controle o tráfego de IA para democratizar e acelerar a adoção da IA na sua organização.

Todos os dados são registrados em log nas tabelas Delta no Catálogo do Unity.

Para começar a visualizar insights dos dados do AI Gateway, faça o download do painel de exemplo do AI Gateway no GitHub. Esse painel aproveita os dados das tabelas de inferência de rastreamento de uso e registro de carga útil.

Depois de baixar o arquivo JSON, importe o painel para o workspace. Para obter instruções sobre como importar painéis, confira Importar um arquivo de painel.

Funcionalidades com suporte

A tabela a seguir define os recursos disponíveis do AI Gateway e quais tipos de endpoints de servidores de modelos dão suporte a eles.

Recurso	Definição	ponto de extremidade do modelo externo	APIs do modelo de base provisionaram ponto de extremidade da taxa de transferência	Agentes de IA do Mosaico
Limitação de permissão e taxa	Controle quem tem acesso e com que nível de permissão.	✓	✓
Registro em log do payload	Monitorar e auditar dados enviados para as APIs de modelos usando tabelas de inferência.	✓	✓	✓
Acompanhamento de uso	Monitorar o uso operacional nos dispositivos finais e os custos associados usando as tabelas do sistema.	✓	✓
AI Guardrails	Evite dados indesejados e dados não seguros em solicitações e respostas. Confira Guarda-corpos de IA.	✓	✓
Roteamento de tráfego	Minimize as interrupções de produção durante e após a implantação.	✓	✓

O Mosaic AI Gateway ocasiona cobranças com base no recurso habilitado. Durante a versão prévia, esses recursos pagos incluem AI Guardrails, registro em log do payload e acompanhamento de uso. Recursos como permissões de consulta, limitação de taxa e roteamento de tráfego são gratuitos. Quaisquer novos recursos estão sujeitos a cobrança.

A tabela a seguir reflete a taxa de unidades do Databricks (DBUs) por milhão (M) de tokens para os recursos pagos do AI Gateway. As cobranças são listadas no SKU Serverless Real-time Inference.

Recurso	Taxa de DBU
AI Guardrails	21,429 DBUs por M tokens
Registro em log do payload	2,857 DBUs por M tokens
Acompanhamento de uso	0,571 DBUs por M tokens

AI Guardrails

As AI Guardrails permitem que os usuários configurem e apliquem a conformidade de dados no nível do ponto de extremidade servindo ao modelo e reduzam o conteúdo prejudicial em todas as solicitações enviadas ao modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Veja como configurar proteções no ponto de extremidade de serviço de um modelo.

Importante

As AI Guardrails só estão disponíveis em regiões que oferecem suporte a APIs do Foundation Model pay-per-token.

A tabela a seguir resume os verificadores de integridade configuráveis. Confira Limitações.

Verificador de integridade	Definição
Filtragem de segurança	A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do AI Gateway é construído com o Meta Llama 3. O Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte a placa do modelo Meta Llama Guard 2 8B. O Meta Llama 3 é licenciado sob a Licença da Comunidade LLAMA 3, direitos autorais de Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Detecção de PIIs (informações de identificação pessoal)	Os clientes podem detectar qualquer informação confidencial, como nomes, endereços, números de cartão de crédito dos usuários. Para esse recurso, o AI Gateway usa o Presidio para detectar as seguintes categorias de PII dos EUA: números de cartão de crédito, endereços de e-mail, números de telefone, números de contas bancárias e números de previdência social. O classificador de PIIs pode ajudar a identificar informações confidenciais ou PIIs em dados estruturados e não estruturados. No entanto, como está usando mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, sistemas e proteções adicionais deverão ser empregados. Esses métodos de classificação têm como escopo principalmente as categorias de PIIs dos EUA, como números de telefone dos EUA e números do seguro social.
Moderação de tópicos	Capacidade de listar um conjunto de tópicos permitidos. Dada uma solicitação de chat, esse verificador de integridade sinaliza a solicitação se seu tópico não estiver nos tópicos permitidos.
Filtragem de palavras-chave	Os clientes podem especificar diferentes conjuntos de palavras-chave inválidas para a entrada e a saída. Um caso de uso potencial para a filtragem de palavras-chave é que o modelo não fale sobre concorrentes. Esse verificador de integridade usa correspondência de palavra-chave ou sequência para decidir se a palavra-chave existe no conteúdo da solicitação ou da resposta.

Usar o AI Gateway

É possível configurar os recursos do AI Gateway nos pontos de extremidade de serviço do modelo usando a IU de serviço. Consulte Configurar o AI Gateway em pontos de extremidade de serviço de modelo.

Limitações

As seguintes limitações se aplicam durante a versão prévia:

O Gateway de IA só tem suporte para:
- Pontos de extremidade do Serviço de Modelo da taxa de transferência provisionada das APIs do modelo de base.
- Pontos de extremidade de Serviço de Modelo que atendem a modelos externos.
- Pontos de extremidade de Serviço de Modelo que atendem Agentes de IA do Mosaico.
Quando os Guarda-corpos de IA são utilizados, o tamanho do lote da solicitação, seja para incorporações, conclusões ou o parâmetro n das solicitações de chat, não pode exceder 16.
Para cargas de trabalho de taxa de transferência provisionadas, há suporte apenas para limitação de taxa de transferência e registro em log de carga usando tabelas de inferência habilitadas pelo Gateway de IA.
Confira limitações da tabela de inferência habilitada pelo Gateway de IA.
Se você utilizar a função chamando e especificar diretrizes de segurança de IA, essas diretrizes não serão aplicadas às solicitações nem às respostas intermediárias da função. No entanto, os protetores são aplicados à resposta de saída final.

Compartilhar via