Mosaic AI Gateway
Importante
Esse recurso está em uma versão prévia.
O que é o Mosaic AI Gateway?
O Gateway de IA do Mosaico foi projetado para simplificar o uso e o gerenciamento de modelos e agentes de IA generativos em uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para modelar pontos de extremidade de serviço. Ele também permite que você execute, proteja e controle o tráfego de IA para democratizar e acelerar a adoção da IA na sua organização.
Todos os dados são registrados em log nas tabelas Delta no Catálogo do Unity.
Para começar a visualizar insights dos dados do AI Gateway, faça o download do painel de exemplo do AI Gateway no GitHub. Esse painel aproveita os dados das tabelas de inferência de rastreamento de uso e registro de carga útil.
Depois de baixar o arquivo JSON, importe o painel para o workspace. Para obter instruções sobre como importar painéis, confira Importar um arquivo de painel.
Funcionalidades com suporte
A tabela a seguir define os recursos disponíveis do AI Gateway e quais tipos de endpoints de servidores de modelos dão suporte a eles.
Recurso | Definição | ponto de extremidade do modelo externo | APIs do modelo de base provisionaram ponto de extremidade da taxa de transferência | Agentes de IA do Mosaico |
---|---|---|---|---|
Limitação de permissão e taxa | Controle quem tem acesso e com que nível de permissão. | ✓ | ✓ | |
Registro em log do payload | Monitorar e auditar dados enviados para as APIs de modelos usando tabelas de inferência. | ✓ | ✓ | ✓ |
Acompanhamento de uso | Monitorar o uso operacional nos dispositivos finais e os custos associados usando as tabelas do sistema. | ✓ | ✓ | |
AI Guardrails | Evite dados indesejados e dados não seguros em solicitações e respostas. Confira Guarda-corpos de IA. | ✓ | ✓ | |
Roteamento de tráfego | Minimize as interrupções de produção durante e após a implantação. | ✓ | ✓ |
O Mosaic AI Gateway ocasiona cobranças com base no recurso habilitado. Durante a versão prévia, esses recursos pagos incluem AI Guardrails, registro em log do payload e acompanhamento de uso. Recursos como permissões de consulta, limitação de taxa e roteamento de tráfego são gratuitos. Quaisquer novos recursos estão sujeitos a cobrança.
A tabela a seguir reflete a taxa de unidades do Databricks (DBUs) por milhão (M) de tokens para os recursos pagos do AI Gateway. As cobranças são listadas no SKU Serverless Real-time Inference
.
Recurso | Taxa de DBU |
---|---|
AI Guardrails | 21,429 DBUs por M tokens |
Registro em log do payload | 2,857 DBUs por M tokens |
Acompanhamento de uso | 0,571 DBUs por M tokens |
AI Guardrails
As AI Guardrails permitem que os usuários configurem e apliquem a conformidade de dados no nível do ponto de extremidade servindo ao modelo e reduzam o conteúdo prejudicial em todas as solicitações enviadas ao modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Veja como configurar proteções no ponto de extremidade de serviço de um modelo.
Importante
As AI Guardrails só estão disponíveis em regiões que oferecem suporte a APIs do Foundation Model pay-per-token.
A tabela a seguir resume os verificadores de integridade configuráveis. Confira Limitações.
Verificador de integridade | Definição |
---|---|
Filtragem de segurança | A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do AI Gateway é construído com o Meta Llama 3. O Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte a placa do modelo Meta Llama Guard 2 8B. O Meta Llama 3 é licenciado sob a Licença da Comunidade LLAMA 3, direitos autorais de Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis. |
Detecção de PIIs (informações de identificação pessoal) | Os clientes podem detectar qualquer informação confidencial, como nomes, endereços, números de cartão de crédito dos usuários. Para esse recurso, o AI Gateway usa o Presidio para detectar as seguintes categorias de PII dos EUA: números de cartão de crédito, endereços de e-mail, números de telefone, números de contas bancárias e números de previdência social. O classificador de PIIs pode ajudar a identificar informações confidenciais ou PIIs em dados estruturados e não estruturados. No entanto, como está usando mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, sistemas e proteções adicionais deverão ser empregados. Esses métodos de classificação têm como escopo principalmente as categorias de PIIs dos EUA, como números de telefone dos EUA e números do seguro social. |
Moderação de tópicos | Capacidade de listar um conjunto de tópicos permitidos. Dada uma solicitação de chat, esse verificador de integridade sinaliza a solicitação se seu tópico não estiver nos tópicos permitidos. |
Filtragem de palavras-chave | Os clientes podem especificar diferentes conjuntos de palavras-chave inválidas para a entrada e a saída. Um caso de uso potencial para a filtragem de palavras-chave é que o modelo não fale sobre concorrentes. Esse verificador de integridade usa correspondência de palavra-chave ou sequência para decidir se a palavra-chave existe no conteúdo da solicitação ou da resposta. |
Usar o AI Gateway
É possível configurar os recursos do AI Gateway nos pontos de extremidade de serviço do modelo usando a IU de serviço. Consulte Configurar o AI Gateway em pontos de extremidade de serviço de modelo.
Limitações
As seguintes limitações se aplicam durante a versão prévia:
- O Gateway de IA só tem suporte para:
- Pontos de extremidade do Serviço de Modelo da taxa de transferência provisionada das APIs do modelo de base.
- Pontos de extremidade de Serviço de Modelo que atendem a modelos externos.
- Pontos de extremidade de Serviço de Modelo que atendem Agentes de IA do Mosaico.
- Quando os Guarda-corpos de IA são utilizados, o tamanho do lote da solicitação, seja para incorporações, conclusões ou o parâmetro
n
das solicitações de chat, não pode exceder 16. - Para cargas de trabalho de taxa de transferência provisionadas, há suporte apenas para limitação de taxa de transferência e registro em log de carga usando tabelas de inferência habilitadas pelo Gateway de IA.
- Confira limitações da tabela de inferência habilitada pelo Gateway de IA.
- Se você utilizar a função chamando e especificar diretrizes de segurança de IA, essas diretrizes não serão aplicadas às solicitações nem às respostas intermediárias da função. No entanto, os protetores são aplicados à resposta de saída final.