Partilhar via


Mosaico AI Gateway

Importante

Esta funcionalidade está em Pré-visualização Pública.

O que é o Mosaic AI Gateway?

O Mosaic AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos e agentes de IA generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para modelar pontos de extremidade de serviço. Ele também permite que você execute, proteja e governe o tráfego de IA para democratizar e acelerar a adoção de IA para sua organização.

Todos os dados são registrados em tabelas Delta no Unity Catalog.

Para começar a visualizar insights de seus dados do AI Gateway, baixe o painel de exemplo do AI Gateway no GitHub. Esse painel aproveita os dados das tabelas de inferência de controle de uso e registro de carga útil.

Depois de baixar o arquivo JSON, importe o painel para seu espaço de trabalho. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.

Recursos suportados

A tabela a seguir define as funcionalidades disponíveis do AI Gateway e quais tipos de ponto de extremidade de serviço de modelo as suportam.

Caraterística Definição Ponto de extremidade do modelo externo APIs do Modelo de Base provisionaram o ponto de extremidade de taxa de transferência Agentes de IA Mosaic
Permissão e limitação de taxa Controle quem tem acesso e quanto acesso.
Registo de carga útil Monitore e audite os dados que estão sendo enviados para APIs de modelo usando tabelas de inferência.
Controlo de utilização Monitore o uso operacional nos endpoints e os custos associados, utilizando as tabelas do sistema .
AI Guardrails Evite dados indesejados e dados inseguros em solicitações e respostas. Veja de guarda-corpos de IA .
Roteamento de tráfego Minimize as interrupções de produção durante e após a implantação.

O Mosaic AI Gateway incorre em cobranças com base em recursos habilitados. Durante a visualização, esses recursos pagos incluem Guardrails de IA, registro de carga útil e rastreamento de uso. Recursos como permissões de consulta, limitação de taxa e roteamento de tráfego são gratuitos. Quaisquer novas funcionalidades estão sujeitas a cobrança.

A tabela a seguir reflete a taxa de unidades Databricks (DBUs) por milhão (M) de tokens para os recursos pagos do AI Gateway. As taxas estão listadas sob o Serverless Real-time Inference SKU.

Caraterística Taxa DBU
AI Guardrails 21.429 DBUs por M tokens
Registo de carga útil 2.857 DBUs por M tokens
Controlo de utilização 0,571 DBUs por M tokens

AI Guardrails

Os Guardrails de IA permitem que os usuários configurem e imponham a conformidade de dados no nível de ponto final de serviço do modelo e reduzam o conteúdo prejudicial em quaisquer solicitações enviadas para o modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Veja como configurar guarda-corpos em um modelo de ponto de extremidade de serviço.

Importante

Os Guardrails de IA só estão disponíveis em regiões que suportam APIs do Modelo de Fundação pay-per-token.

A tabela a seguir resume os guarda-corpos configuráveis. Consulte Limitações.

Guarda-corpo Definição
Filtragem de segurança A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio.

O filtro de segurança AI Gateway é construído com Meta Llama 3. A Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão modelo Meta Llama Guard 2 8B.

Meta Llama 3 é licenciado sob a LLAMA 3 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Deteção de informações de identificação pessoal (PII) Os clientes podem detetar qualquer informação confidencial, como nomes, endereços, números de cartão de crédito para os usuários.

Para esse recurso, o AI Gateway usa o Presidio para detetar as seguintes categorias de PII nos EUA: números de cartão de crédito, endereços de e-mail, números de telefone, números de contas bancárias e números de segurança social.

O classificador PII pode ajudar a identificar informações confidenciais ou PII em dados estruturados e não estruturados. No entanto, por estar usando mecanismos de deteção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, devem ser utilizados sistemas e proteções adicionais.

Esses métodos de classificação têm como escopo principal as categorias de PII dos EUA, como números de telefone dos EUA e números de segurança social.
Moderação de tópicos Capacidade de listar um conjunto de tópicos permitidos. Dada uma solicitação de bate-papo, esse guardrail sinaliza a solicitação se seu tópico não estiver nos tópicos permitidos.
Filtragem de palavras-chave Os clientes podem especificar diferentes conjuntos de palavras-chave inválidas para a entrada e a saída. Um caso de uso potencial para filtragem de palavras-chave é para que o modelo não fale sobre concorrentes.

Esse guardrail usa correspondência de palavra-chave ou cadeia de caracteres para decidir se a palavra-chave existe no conteúdo da solicitação ou resposta.

Usar o AI Gateway

Você pode configurar os recursos do AI Gateway em seu modelo servindo pontos de extremidade usando a interface do usuário de serviço. Consulte Configurar o AI Gateway em pontos de extremidade de serviço de modelo.

Limitações

A seguir estão as limitações durante a visualização:

  • O AI Gateway só é suportado para:
  • Quando são usadas barreiras de segurança de IA, o tamanho do lote de solicitações, seja ele de incorporações, de conclusões ou o parâmetro n de solicitações de chat, não pode exceder 16.
  • Para cargas de trabalho com taxa de transferência aprovisionada, há suporte apenas para limitação de taxa e registro de carga útil usando tabelas de inferência habilitadas para AI Gateway.
  • Consulte as limitações da tabela de inferência habilitada pelo AI Gateway .
  • Se utilizar a função chamando e especificar limites de segurança para a IA, esses limites não serão aplicados às solicitações e respostas intermediárias da função. No entanto, limites são aplicados à resposta final.