Mosaico AI Gateway
Importante
Esta funcionalidade está em Pré-visualização Pública.
O que é o Mosaic AI Gateway?
O Mosaic AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes de IA generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para modelar pontos de extremidade de serviço. Ele também permite que você execute, proteja e governe o tráfego de IA para democratizar e acelerar a adoção de IA para sua organização.
Todos os dados são registrados em tabelas Delta no Unity Catalog.
Para começar a visualizar insights de seus dados do AI Gateway, baixe o painel de exemplo do AI Gateway no GitHub. Esse painel aproveita os dados das tabelas de inferência de controle de uso e registro de carga útil.
Depois de baixar o arquivo JSON, importe o painel para seu espaço de trabalho. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.
Recursos suportados
A tabela a seguir define as funcionalidades disponíveis do AI Gateway e quais tipos de ponto de extremidade de serviço de modelo as suportam.
Caraterística | Definição | Ponto de extremidade do modelo externo | APIs do Modelo de Base provisionaram o ponto de extremidade de taxa de transferência | Agentes de IA Mosaic |
---|---|---|---|---|
Permissão e limitação de taxa | Controle quem tem acesso e quanto acesso. | ✓ | ✓ | |
Registo de carga útil | Monitore e audite os dados que estão sendo enviados para APIs de modelo usando tabelas de inferência. | ✓ | ✓ | ✓ |
Controlo de utilização | Monitore o uso operacional nos endpoints e os custos associados, utilizando as tabelas do sistema . | ✓ | ✓ | |
AI Guardrails | Evite dados indesejados e dados inseguros em solicitações e respostas. Veja de guarda-corpos de IA . | ✓ | ✓ | |
Roteamento de tráfego | Minimize as interrupções de produção durante e após a implantação. | ✓ | ✓ |
O Mosaic AI Gateway incorre em cobranças com base em recursos habilitados. Durante a visualização, esses recursos pagos incluem Guardrails de IA, registro de carga útil e rastreamento de uso. Recursos como permissões de consulta, limitação de taxa e roteamento de tráfego são gratuitos. Quaisquer novas funcionalidades estão sujeitas a cobrança.
A tabela a seguir reflete a taxa de unidades Databricks (DBUs) por milhão (M) de tokens para os recursos pagos do AI Gateway. As taxas estão listadas sob o Serverless Real-time Inference
SKU.
Caraterística | Taxa DBU |
---|---|
AI Guardrails | 21.429 DBUs por M tokens |
Registo de carga útil | 2.857 DBUs por M tokens |
Controlo de utilização | 0,571 DBUs por M tokens |
AI Guardrails
Os Guardrails de IA permitem que os usuários configurem e imponham a conformidade de dados no nível de ponto final de serviço do modelo e reduzam o conteúdo prejudicial em quaisquer solicitações enviadas para o modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Veja como configurar guarda-corpos em um modelo de ponto de extremidade de serviço.
Importante
Os Guardrails de IA só estão disponíveis em regiões que suportam APIs do Modelo de Fundação pay-per-token.
A tabela a seguir resume os guarda-corpos configuráveis. Consulte Limitações.
Guarda-corpo | Definição |
---|---|
Filtragem de segurança | A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança AI Gateway é construído com Meta Llama 3. A Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão modelo Meta Llama Guard 2 8B. Meta Llama 3 é licenciado sob a LLAMA 3 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis. |
Deteção de informações de identificação pessoal (PII) | Os clientes podem detetar qualquer informação confidencial, como nomes, endereços, números de cartão de crédito para os usuários. Para esse recurso, o AI Gateway usa o Presidio para detetar as seguintes categorias de PII nos EUA: números de cartão de crédito, endereços de e-mail, números de telefone, números de contas bancárias e números de segurança social. O classificador PII pode ajudar a identificar informações confidenciais ou PII em dados estruturados e não estruturados. No entanto, por estar usando mecanismos de deteção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, devem ser utilizados sistemas e proteções adicionais. Esses métodos de classificação têm como escopo principal as categorias de PII dos EUA, como números de telefone dos EUA e números de segurança social. |
Moderação de tópicos | Capacidade de listar um conjunto de tópicos permitidos. Dada uma solicitação de bate-papo, esse guardrail sinaliza a solicitação se seu tópico não estiver nos tópicos permitidos. |
Filtragem de palavras-chave | Os clientes podem especificar diferentes conjuntos de palavras-chave inválidas para a entrada e a saída. Um caso de uso potencial para filtragem de palavras-chave é para que o modelo não fale sobre concorrentes. Esse guardrail usa correspondência de palavra-chave ou cadeia de caracteres para decidir se a palavra-chave existe no conteúdo da solicitação ou resposta. |
Usar o AI Gateway
Você pode configurar os recursos do AI Gateway em seu modelo servindo pontos de extremidade usando a interface do usuário de serviço. Consulte Configurar o AI Gateway em pontos de extremidade de serviço de modelo.
Limitações
A seguir estão as limitações durante a visualização:
- O AI Gateway só é suportado para:
- APIs do Modelo de Base largura de banda provisória pontos de extremidade para serviço de modelos.
- Pontos de extremidade de serviço de modelo que servem modelos externos .
- Pontos de serviço de modelos que servem agentes de IA Mosaic.
- Quando são usadas barreiras de segurança de IA, o tamanho do lote de solicitações, seja ele de incorporações, de conclusões ou o parâmetro
n
de solicitações de chat, não pode exceder 16. - Para cargas de trabalho com taxa de transferência aprovisionada, há suporte apenas para limitação de taxa e registro de carga útil usando tabelas de inferência habilitadas para AI Gateway.
- Consulte as limitações da tabela de inferência habilitada pelo AI Gateway .
- Se utilizar a função chamando e especificar limites de segurança para a IA, esses limites não serão aplicados às solicitações e respostas intermediárias da função. No entanto, limites são aplicados à resposta final.