Introdução ao Mosaic AI Gateway
Importante
Esta funcionalidade está em Pré-visualização Pública.
Este artigo descreve o Mosaic AI Gateway, a solução Databricks para gerir e monitorizar o acesso a modelos de IA generativa suportados e aos seus endpoints de serviço de modelos associados.
O que é o Mosaic AI Gateway?
O Mosaic AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes de IA generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para modelar pontos de extremidade de serviço. Ele também permite que você execute, proteja e governe o tráfego de IA para democratizar e acelerar a adoção de IA para sua organização.
Todos os dados são registrados em tabelas Delta no Unity Catalog.
Para começar a visualizar insights de seus dados do AI Gateway, baixe o painel de exemplo do AI Gateway no GitHub. Este dashboard utiliza os dados das tabelas de inferência de monitorização de uso e registo de carga.
Depois de baixar o arquivo JSON, importe o painel para seu espaço de trabalho. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.
Recursos suportados
A tabela a seguir define as funcionalidades disponíveis do AI Gateway e quais tipos de endpoints de serviço de modelo as suportam.
Caraterística | Definição | Ponto de extremidade do modelo externo | APIs do Modelo de Base provisionaram o ponto de extremidade de taxa de transferência | Agentes de IA Mosaic |
---|---|---|---|---|
Permissão e limitação de taxa | Controle quem tem acesso e quanto acesso. | Suportado | Suportado | Sem suporte |
Registo de carga útil | Monitore e audite os dados que estão sendo enviados para APIs de modelo usando tabelas de inferência. | Suportado | Suportado | Suportado |
Monitorização de utilização | Monitore o uso operacional nos endpoints e os custos associados, utilizando as tabelas do sistema . | Suportado | Suportado | Sem suporte |
AI Guardrails | Evite dados indesejados e dados inseguros em solicitações e respostas. Veja as Diretrizes de Segurança de IA. | Suportado | Suportado | Sem suporte |
Alternativas | Minimize as interrupções de produção durante e após a implantação. | Suportado | Sem suporte | Sem suporte |
Divisão de tráfego | Distribua o tráfego de carga entre modelos. | Suportado | Suportado | Sem suporte |
O sistema Mosaic AI Gateway incorre em cobranças com base em funcionalidades ativadas. Durante a visualização, estes recursos pagos incluem Barreiras de Segurança de IA, registo de carga útil e monitorização de utilização. Recursos como permissões de consulta, limitação de velocidade, alternativas e divisão de tráfego são gratuitos. Quaisquer novas funcionalidades estão sujeitas a cobrança.
A tabela a seguir reflete a taxa de unidades Databricks (DBUs) por milhão (M) de tokens para os recursos pagos do AI Gateway. As taxas estão listadas sob o Serverless Real-time Inference
SKU.
Caraterística | Taxa DBU |
---|---|
AI Guardrails | 21.429 DBUs por milhão de tokens |
Registo de carga útil | 2.857 DBUs por milhão de tokens |
Monitorização de utilização | 0,571 DBUs por M tokens |
Restrições de IA
Os Guardrails de IA permitem que os usuários configurem e imponham a conformidade de dados no nível de ponto final de serviço do modelo e reduzam o conteúdo prejudicial em quaisquer solicitações enviadas para o modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Veja como configurar restrições em um endpoint de serviço de modelo.
Importante
O serviço de moderação AI Guardrails depende dos modelos de pagamento por token das APIs do Modelo de Base. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails para regiões que suportam APIs de Modelos Fundamentais pagas por token.
A tabela a seguir resume os guarda-corpos configuráveis. Consulte Limitações.
Rail de proteção | Definição |
---|---|
Filtragem de segurança | A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança AI Gateway é construído com Meta Llama 3. A Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam a este filtro de segurança, consulte a ficha do modelo Meta Llama Guard 2 8B. Meta Llama 3 é licenciado sob a LLAMA 3 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis. |
Deteção de informações de identificação pessoal (PII) | Os clientes podem detetar qualquer informação confidencial, como nomes, endereços, números de cartão de crédito para os usuários. Para esse recurso, o AI Gateway usa o Presidio para detetar as seguintes categorias de PII nos EUA: números de cartão de crédito, endereços de e-mail, números de telefone, números de contas bancárias e números de segurança social. O classificador PII pode ajudar a identificar informações confidenciais ou PII em dados estruturados e não estruturados. No entanto, por estar usando mecanismos de deteção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, devem ser utilizados sistemas e proteções adicionais. Esses métodos de classificação têm como escopo principal as categorias de PII dos EUA, como números de telefone dos EUA e números de segurança social. |
Moderação de tópicos | Capacidade de listar um conjunto de tópicos permitidos. Dada uma solicitação de bate-papo, esse guardrail sinaliza a solicitação se seu tópico não estiver nos tópicos permitidos. |
Filtragem de palavras-chave | Os clientes podem especificar diferentes conjuntos de palavras-chave inválidas para a entrada e a saída. Um caso de uso potencial para filtragem de palavras-chave é para que o modelo não fale sobre concorrentes. Esse guardrail usa correspondência de palavra-chave ou cadeia de caracteres para decidir se a palavra-chave existe no conteúdo da solicitação ou resposta. |
Usar o Portal de IA
Você pode configurar os recursos do AI Gateway nos pontos de extremidade de serviço do seu modelo usando a interface de serviço. Consulte Configurar o AI Gateway nos endpoints de disponibilização de modelos.
Limitações
A seguir estão as limitações durante a visualização:
- O AI Gateway só é suportado para:
- APIs do Modelo de Base taxa de transferência provisionada nos pontos de extremidade para serviço de modelos.
- Pontos de extremidade de modelo de serviço que suportam modelos externos.
- Pontos de serviço de modelos que servem agentes de IA Mosaic.
- Quando são usadas barreiras de segurança de IA, o tamanho do lote de solicitações, seja ele de incorporações, de conclusões ou o parâmetro
n
de solicitações de chat, não pode exceder 16. - Para cargas de trabalho com taxa de transferência aprovisionada, há suporte apenas para limitação de taxa e registo da carga útil usando tabelas de inferência habilitadas para AI Gateway.
- Consulte as limitações da tabela de inferência habilitada pelo AI Gateway .
- Se utilizar a função chamando e especificar limites de segurança para a IA, esses limites não serão aplicados às solicitações e respostas intermediárias da função. No entanto, limites são aplicados à resposta final.