Partilhar via


Filtragem de conteúdo no portal do Azure AI Foundry

O Azure AI Foundry inclui um sistema de filtragem de conteúdo que funciona em conjunto com modelos principais e modelos de geração de imagens DALL-E.

Importante

O sistema de filtragem de conteúdo não é aplicado a prompts e conclusões processadas pelo modelo Whisper no Serviço Azure OpenAI. Saiba mais sobre o modelo Whisper no Azure OpenAI.

Como funciona

Este sistema de filtragem de conteúdo é alimentado pelo Azure AI Content Safety e funciona executando a entrada de prompt e a saída de conclusão por meio de um conjunto de modelos de classificação destinados a detetar e prevenir a saída de conteúdo nocivo. As variações nas configurações da API e na conceção da aplicação podem afetar as conclusões e, consequentemente, o comportamento de filtragem.

Com implantações de modelo OpenAI do Azure, você pode usar o filtro de conteúdo padrão ou criar seu próprio filtro de conteúdo (descrito mais adiante). O filtro de conteúdo padrão também está disponível para outros modelos de texto selecionados pela IA do Azure no catálogo de modelos, mas os filtros de conteúdo personalizados ainda não estão disponíveis para esses modelos. Os modelos disponíveis por meio do Models as a Service têm a filtragem de conteúdo habilitada por padrão e não podem ser configurados.

Suporte de idiomas

Os modelos de filtragem de conteúdos foram treinados e testados nas seguintes línguas: Inglês, alemão, japonês, espanhol, francês, italiano, português e chinês. No entanto, o serviço pode funcionar em muitas outras línguas, mas a qualidade pode variar. Em todos os casos, deve efetuar os seus próprios testes para garantir que funciona para a sua aplicação.

Filtros de risco de conteúdo (filtros de entrada e saída)

Os seguintes filtros especiais funcionam tanto para entrada quanto para saída de modelos generativos de IA:

Categorias

Categoria Description
Ódio A categoria de ódio descreve ataques ou usos linguísticos que incluem linguagem pejorativa ou discriminatória com referência a uma pessoa ou grupo de identidade com base em certos atributos diferenciadores desses grupos, incluindo, entre outros, raça, etnia, nacionalidade, identidade e expressão de gênero, orientação sexual, religião, status de imigração, status de habilidade, aparência pessoal e tamanho do corpo.
Sexual A categoria sexual descreve linguagem relacionada a órgãos anatômicos e genitais, relacionamentos românticos, atos retratados em termos eróticos ou afetivos, atos sexuais físicos, incluindo aqueles retratados como uma agressão ou um ato sexual violento forçado contra a vontade, prostituição, pornografia e abuso.
Violência A categoria violência descreve a linguagem relacionada a ações físicas destinadas a ferir, ferir, danificar ou matar alguém ou algo; descreve armas, etc.
Automutilação A categoria de automutilação descreve a linguagem relacionada a ações físicas destinadas a ferir, ferir ou danificar propositalmente o corpo, ou matar-se.

Níveis de severidade

Categoria Description
Safe O conteúdo pode estar relacionado a categorias de violência, automutilação, sexual ou ódio, mas os termos são usados em contextos profissionais gerais, jornalísticos, científicos, médicos e similares, que são apropriados para a maioria dos públicos.
Baixo Conteúdo que expressa opiniões preconceituosas, preconceituosas ou opinativas, inclui uso ofensivo de linguagem, estereótipos, casos de uso explorando um mundo fictício (por exemplo, jogos, literatura) e representações em baixa intensidade.
Médio O conteúdo que usa linguagem ofensiva, insultuosa, zombeteira, intimidadora ou humilhante em relação a grupos de identidade específicos, inclui representações de busca e execução de instruções prejudiciais, fantasias, glorificação, promoção de danos em intensidade média.
Alto Conteúdo que exiba instruções, ações, danos ou abuso prejudiciais explícitos e graves; inclui endosso, glorificação ou promoção de atos prejudiciais graves, formas extremas ou ilegais de dano, radicalização ou troca ou abuso de poder não consensual.

Outros filtros de entrada

Você também pode habilitar filtros especiais para cenários de IA generativa:

  • Ataques de Jailbreak: Os Ataques de Jailbreak são Prompts do Usuário projetados para provocar o modelo de IA Generativa a exibir comportamentos que foi treinado para evitar ou quebrar as regras definidas na Mensagem do Sistema.
  • Ataques Indiretos: Os Ataques Indiretos, também conhecidos como Ataques Imediatos Indiretos ou Ataques de Injeção Imediata entre Domínios, são uma vulnerabilidade potencial em que terceiros colocam instruções maliciosas dentro de documentos que o sistema de IA Generativa pode acessar e processar.

Outros filtros de saída

Você também pode ativar os seguintes filtros de saída especiais:

  • Material protegido para texto: o texto de material protegido descreve o conteúdo de texto conhecido (por exemplo, letras de músicas, artigos, receitas e conteúdo da Web selecionado) que pode ser gerado por modelos de linguagem grandes.
  • Material protegido para código: O código de material protegido descreve o código-fonte que corresponde a um conjunto de código-fonte de repositórios públicos, que pode ser gerado por modelos de linguagem grandes sem a citação adequada de repositórios de origem.
  • Aterramento: O filtro de deteção de aterramento deteta se as respostas de texto de modelos de linguagem grande (LLMs) estão fundamentadas nos materiais de origem fornecidos pelos usuários.

Criar um filtro de conteúdo no Azure AI Foundry

Para qualquer implantação de modelo no Azure AI Foundry, você pode usar diretamente o filtro de conteúdo padrão, mas talvez queira ter mais controle. Por exemplo, você pode tornar um filtro mais rigoroso ou mais brando, ou habilitar recursos mais avançados, como escudos rápidos e deteção de material protegido.

Gorjeta

Para obter orientação com filtros de conteúdo em seu projeto do Azure AI Foundry, você pode ler mais em Filtragem de conteúdo do Azure AI Foundry.

Siga estas etapas para criar um filtro de conteúdo:

  1. Vá para Azure AI Foundry e navegue até o seu projeto. Em seguida, selecione a página Segurança + proteção no menu esquerdo e selecione a guia Filtros de conteúdo.

    Captura de ecrã do botão para criar um novo filtro de conteúdo.

  2. Selecione + Criar filtro de conteúdo.

  3. Na página Informações básicas, insira um nome para sua configuração de filtragem de conteúdo. Selecione uma conexão para associar ao filtro de conteúdo. Em seguida, selecione Seguinte.

    Captura de tela da opção para selecionar ou inserir informações básicas, como o nome do filtro ao criar um filtro de conteúdo.

    Agora você pode configurar os filtros de entrada (para prompts do usuário) e filtros de saída (para conclusão do modelo).

  4. Na página Filtros de entrada, você pode definir o filtro para o prompt de entrada. Para as quatro primeiras categorias de conteúdo, há três níveis de gravidade configuráveis: baixo, médio e alto. Você pode usar os controles deslizantes para definir o limite de gravidade se determinar que seu aplicativo ou cenário de uso requer filtragem diferente dos valores padrão. Alguns filtros, como Escudos de Aviso e Deteção de material protegido, permitem determinar se o modelo deve anotar e/ou bloquear conteúdo. Selecionar Anotar executa apenas o respetivo modelo e retorna anotações via resposta da API, mas não filtrará o conteúdo. Além de anotar, você também pode optar por bloquear conteúdo.

    Se o seu caso de uso foi aprovado para filtros de conteúdo modificados, você recebe controle total sobre as configurações de filtragem de conteúdo e pode optar por desativar a filtragem parcial ou totalmente, ou ativar a anotação apenas para as categorias de danos ao conteúdo (violência, ódio, violência sexual e automutilação).

    O conteúdo será anotado por categoria e bloqueado de acordo com o limite definido. Para as categorias violência, ódio, sexual e automutilação, ajuste o controle deslizante para bloquear conteúdo de alta, média ou baixa gravidade.

    Captura de tela da tela do filtro de entrada.

  5. Na página Filtros de saída, você pode configurar o filtro de saída, que será aplicado a todo o conteúdo de saída gerado pelo seu modelo. Configure os filtros individuais como antes. Esta página também fornece a opção Modo de streaming, que permite filtrar o conteúdo quase em tempo real à medida que é gerado pelo modelo, reduzindo a latência. Quando terminar, selecione Avançar.

    O conteúdo será anotado por cada categoria e bloqueado de acordo com o limite. Para conteúdo violento, conteúdo de ódio, conteúdo sexual e categoria de conteúdo de automutilação, ajuste o limite para bloquear conteúdo prejudicial com níveis de gravidade iguais ou superiores.

    Captura de tela da tela do filtro de saída.

  6. Opcionalmente, na página Implantação , você pode associar o filtro de conteúdo a uma implantação. Se uma implantação selecionada já tiver um filtro anexado, você deverá confirmar que deseja substituí-la. Você também pode associar o filtro de conteúdo a uma implantação mais tarde. Selecione Criar.

    Captura de tela da opção para selecionar uma implantação ao criar um filtro de conteúdo.

    As configurações de filtragem de conteúdo são criadas no nível do hub no portal do Azure AI Foundry. Saiba mais sobre configurabilidade na documentação do Serviço OpenAI do Azure.

  7. Na página Revisão, revise as configurações e selecione Criar filtro.

Usar uma lista de bloqueio como filtro

Você pode aplicar uma lista de bloqueio como um filtro de entrada ou saída, ou ambos. Habilite a opção Lista de bloqueio na página Filtro de entrada e/ou Filtro de saída. Selecione uma ou mais listas de bloqueio na lista suspensa ou use a lista de bloqueio de palavrões interna. Você pode combinar várias listas de bloqueio no mesmo filtro.

Aplicar um filtro de conteúdo

O processo de criação do filtro oferece a opção de aplicar o filtro às implantações desejadas. Você também pode alterar ou remover filtros de conteúdo de suas implantações a qualquer momento.

Siga estas etapas para aplicar um filtro de conteúdo a uma implantação:

  1. Vá para Azure AI Foundry e selecione um projeto.

  2. Selecione Modelos + pontos de extremidade no painel esquerdo e escolha uma de suas implantações e, em seguida, selecione Editar.

    Captura de tela do botão para editar uma implantação.

  3. Na janela Atualizar implantação, selecione o filtro de conteúdo que você deseja aplicar à implantação. Em seguida, selecione Salvar e fechar.

    Captura de tela de aplicar filtro de conteúdo.

    Você também pode editar e excluir uma configuração de filtro de conteúdo, se necessário. Antes de excluir uma configuração de filtragem de conteúdo, você precisará cancelá-la e substituí-la de qualquer implantação na guia Implantações .

Agora, você pode ir ao playground para testar se o filtro de conteúdo funciona conforme o esperado.

Configurabilidade (pré-visualização)

A configuração de filtragem de conteúdo padrão para a série de modelos GPT é definida para filtrar no limite de gravidade média para todas as quatro categorias de dano de conteúdo (ódio, violência, sexual e automutilação) e se aplica a prompts (texto, texto/imagem multimodal) e conclusão (texto). Isso significa que o conteúdo detetado no nível de gravidade médio ou alto é filtrado, enquanto o conteúdo detetado no nível de gravidade baixo não é filtrado pelos filtros de conteúdo. Para DALL-E, o limite de gravidade padrão é definido como baixo para prompts (texto) e finalizações (imagens), portanto, o conteúdo detetado em níveis de gravidade baixo, médio ou alto é filtrado.

O recurso de configurabilidade permite que os clientes ajustem as configurações, separadamente para prompts e conclusão, para filtrar o conteúdo de cada categoria de conteúdo em diferentes níveis de gravidade, conforme descrito na tabela abaixo:

Severidade filtrada Configurável para prompts Configurável para finalizações Descrições
Baixa, média, alta Sim Sim Configuração de filtragem mais rigorosa. O conteúdo detetado nos níveis de gravidade baixo, médio e alto é filtrado.
Médio, alto Sim Sim O conteúdo detetado no nível de gravidade baixo não é filtrado, o conteúdo em médio e alto é filtrado.
Alto Sim Sim O conteúdo detetado nos níveis de gravidade baixo e médio não é filtrado. Apenas o conteúdo com nível de severidade alto é filtrado. Requer aprovação1.
Sem filtros Se aprovado1 Se aprovado1 Nenhum conteúdo é filtrado, independentemente do nível de gravidade detetado. Requer aprovação1.

1 Para modelos do Azure OpenAI, apenas os clientes que foram aprovados para filtragem de conteúdo modificado têm controle total de filtragem de conteúdo, incluindo a configuração de filtros de conteúdo em nível de gravidade alto ou a desativação de filtros de conteúdo. Solicite filtros de conteúdo modificados por meio destes formulários: Revisão de Acesso Limitado do Azure OpenAI: Filtros de Conteúdo Modificados e Monitoramento de Abuso Modificado.

Os clientes são responsáveis por garantir que os aplicativos que integram o Azure OpenAI estejam em conformidade com o Código de Conduta.

Próximos passos

  • Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.
  • A filtragem de conteúdo do Azure AI Foundry é alimentada pela Segurança de Conteúdo do Azure AI.
  • Saiba mais sobre como compreender e mitigar os riscos associados ao seu aplicativo: Visão geral das práticas de IA responsável para modelos OpenAI do Azure.
  • Saiba mais sobre como avaliar seus modelos de IA generativa e sistemas de IA por meio da Avaliação de IA do Azure.