Introdução ao Mosaic AI Gateway

Artigo
03/06/2025

Importante

Esta funcionalidade está em Pré-visualização Pública.

Este artigo descreve o Mosaic AI Gateway, a solução Databricks para gerir e monitorizar o acesso a modelos de IA generativa suportados e aos seus endpoints de serviço de modelos associados.

O que é o Mosaic AI Gateway?

O Mosaic AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes de IA generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para modelar pontos de extremidade de serviço. Ele também permite que você execute, proteja e governe o tráfego de IA para democratizar e acelerar a adoção de IA para sua organização.

Todos os dados são registrados em tabelas Delta no Unity Catalog.

Para começar a visualizar insights de seus dados do AI Gateway, baixe o painel de exemplo do AI Gateway no GitHub. Este dashboard utiliza os dados das tabelas de inferência de monitorização de uso e registo de carga.

Depois de baixar o arquivo JSON, importe o painel para seu espaço de trabalho. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.

Recursos suportados

A tabela a seguir define as funcionalidades disponíveis do AI Gateway e quais tipos de endpoints de serviço de modelo as suportam.

Caraterística	Definição	Ponto de extremidade do modelo externo	APIs do Modelo de Base provisionaram o ponto de extremidade de taxa de transferência	Agentes de IA Mosaic
Permissão e limitação de taxa	Controle quem tem acesso e quanto acesso.	Suportado	Suportado	Sem suporte
Registo de carga útil	Monitore e audite os dados que estão sendo enviados para APIs de modelo usando tabelas de inferência.	Suportado	Suportado	Suportado
Monitorização de utilização	Monitore o uso operacional nos endpoints e os custos associados, utilizando as tabelas do sistema .	Suportado	Suportado	Sem suporte
AI Guardrails	Evite dados indesejados e dados inseguros em solicitações e respostas. Veja as Diretrizes de Segurança de IA.	Suportado	Suportado	Sem suporte
Alternativas	Minimize as interrupções de produção durante e após a implantação.	Suportado	Sem suporte	Sem suporte
Divisão de tráfego	Distribua o tráfego de carga entre modelos.	Suportado	Suportado	Sem suporte

O sistema Mosaic AI Gateway incorre em cobranças com base em funcionalidades ativadas. Durante a visualização, estes recursos pagos incluem Barreiras de Segurança de IA, registo de carga útil e monitorização de utilização. Recursos como permissões de consulta, limitação de velocidade, alternativas e divisão de tráfego são gratuitos. Quaisquer novas funcionalidades estão sujeitas a cobrança.

A tabela a seguir reflete a taxa de unidades Databricks (DBUs) por milhão (M) de tokens para os recursos pagos do AI Gateway. As taxas estão listadas sob o Serverless Real-time Inference SKU.

Caraterística	Taxa DBU
AI Guardrails	21.429 DBUs por milhão de tokens
Registo de carga útil	2.857 DBUs por milhão de tokens
Monitorização de utilização	0,571 DBUs por M tokens

Restrições de IA

Os Guardrails de IA permitem que os usuários configurem e imponham a conformidade de dados no nível de ponto final de serviço do modelo e reduzam o conteúdo prejudicial em quaisquer solicitações enviadas para o modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Veja como configurar restrições em um endpoint de serviço de modelo.

Importante

O serviço de moderação AI Guardrails depende dos modelos de pagamento por token das APIs do Modelo de Base. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails para regiões que suportam APIs de Modelos Fundamentais pagas por token.

A tabela a seguir resume os guarda-corpos configuráveis. Consulte Limitações.

Rail de proteção	Definição
Filtragem de segurança	A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança AI Gateway é construído com Meta Llama 3. A Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam a este filtro de segurança, consulte a ficha do modelo Meta Llama Guard 2 8B. Meta Llama 3 é licenciado sob a LLAMA 3 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Deteção de informações de identificação pessoal (PII)	Os clientes podem detetar qualquer informação confidencial, como nomes, endereços, números de cartão de crédito para os usuários. Para esse recurso, o AI Gateway usa o Presidio para detetar as seguintes categorias de PII nos EUA: números de cartão de crédito, endereços de e-mail, números de telefone, números de contas bancárias e números de segurança social. O classificador PII pode ajudar a identificar informações confidenciais ou PII em dados estruturados e não estruturados. No entanto, por estar usando mecanismos de deteção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, devem ser utilizados sistemas e proteções adicionais. Esses métodos de classificação têm como escopo principal as categorias de PII dos EUA, como números de telefone dos EUA e números de segurança social.
Moderação de tópicos	Capacidade de listar um conjunto de tópicos permitidos. Dada uma solicitação de bate-papo, esse guardrail sinaliza a solicitação se seu tópico não estiver nos tópicos permitidos.
Filtragem de palavras-chave	Os clientes podem especificar diferentes conjuntos de palavras-chave inválidas para a entrada e a saída. Um caso de uso potencial para filtragem de palavras-chave é para que o modelo não fale sobre concorrentes. Esse guardrail usa correspondência de palavra-chave ou cadeia de caracteres para decidir se a palavra-chave existe no conteúdo da solicitação ou resposta.

Usar o Portal de IA

Você pode configurar os recursos do AI Gateway nos pontos de extremidade de serviço do seu modelo usando a interface de serviço. Consulte Configurar o AI Gateway nos endpoints de disponibilização de modelos.

Limitações

A seguir estão as limitações durante a visualização:

O AI Gateway só é suportado para:
- APIs do Modelo de Base taxa de transferência provisionada nos pontos de extremidade para serviço de modelos.
- Pontos de extremidade de modelo de serviço que suportam modelos externos.
- Pontos de serviço de modelos que servem agentes de IA Mosaic.
Quando são usadas barreiras de segurança de IA, o tamanho do lote de solicitações, seja ele de incorporações, de conclusões ou o parâmetro n de solicitações de chat, não pode exceder 16.
Para cargas de trabalho com taxa de transferência aprovisionada, há suporte apenas para limitação de taxa e registo da carga útil usando tabelas de inferência habilitadas para AI Gateway.
Consulte as limitações da tabela de inferência habilitada pelo AI Gateway .
Se utilizar a função chamando e especificar limites de segurança para a IA, esses limites não serão aplicados às solicitações e respostas intermediárias da função. No entanto, limites são aplicados à resposta final.

Partilhar via