Compartilhar via


Filtragem de conteúdo no portal do Azure AI Foundry

O Azure AI Foundry inclui um sistema de filtragem de conteúdo que funciona junto com os modelos principais e os modelos de geração de imagens DALL-E.

Importante

O sistema de filtragem de conteúdo não é aplicado a prompts e conclusões processados pelo modelo Whisper no Serviço OpenAI do Azure. Saiba mais sobre o modelo Whisper no OpenAI do Azure.

Como ele funciona

Esse sistema de filtragem de conteúdo é desenvolvido com IA do Azure Content Safety e funciona executando a entrada imediata e a saída de conclusão por meio de um conjunto de modelos de classificação destinados a detectar e prevenir a saída de conteúdo prejudicial. As variações nas configurações de API e no design do aplicativo podem afetar os preenchimentos e, portanto, o comportamento de filtragem.

Com as implantação de modelo Azure OpenAI, pode utilizar o filtro de conteúdo padrão ou criar o seu próprio filtro de conteúdo (descrito mais tarde). O filtro de conteúdo padrão também está disponível para outros modelos de texto selecionados pela IA do Azure no catálogo de modelos, mas os filtros de conteúdo personalizados ainda não estão disponíveis para esses modelos. Os modelos disponíveis por meio de Modelos como serviço têm a filtragem de conteúdo habilitada por padrão e não podem ser configurados.

Suporte ao idioma

Os modelos de filtragem de conteúdo foram treinados e testados nos seguintes idiomas: inglês, alemão, japonês, espanhol, francês, italiano, português e chinês. Contudo, o serviço pode funcionar em muitos outros idiomas, mas a qualidade poderá variar. Em todos os casos, você deve fazer seus próprios testes para garantir que ele funcione no seu aplicativo.

Filtros de risco de conteúdo (filtros de entrada e saída)

Os seguintes filtros especiais funcionam para entrada e saída de modelos de IA generativa:

Categorias

Categoria Descrição
Ódio A categoria de ódio descreve ataques ou usos de linguagem que incluem linguagem pejorativa ou discriminatória com referência a uma pessoa ou a um grupo de identidade de acordo com certos atributos de diferenciação desses grupos, incluindo, entre outros, raça, etnia, nacionalidade, identidade e expressão de gênero, orientação sexual, religião, status de imigração, status de capacidade, aparência pessoal e tamanho do corpo.
Sexual A categoria sexual descreve linguagem relacionada a órgãos anatômicos e genitais, relacionamentos românticos, atos retratados em termos eróticos ou afetuosos, atos sexuais físicos, incluindo aqueles retratados como uma agressão ou um ato violento sexual forçado contra a vontade de alguém, prostituição, pornografia e abuso.
Violência A categoria de violência descreve linguagem relacionada a ações físicas destinadas a ferir, machucar, danificar ou matar alguém ou algo; descreve armas, etc.
Automutilação A categoria de automutilação descreve linguagem relacionada a ações físicas destinadas a machucar, ferir ou causar danos ao corpo de alguém ou se suicidar.

Níveis de severidade

Categoria Descrição
Safe O conteúdo pode estar relacionado às categorias de violência, automutilação, sexual ou ódio, mas os termos são usados em contextos profissionais gerais, jornalísticos, científicos, médicos e similares, que são apropriados para a maioria dos públicos.
Baixo Conteúdo que expressa opiniões preconceituosas, críticas ou opinativas, inclui o uso de linguagem ofensiva, estereótipos, casos de uso explorando um mundo fictício (por exemplo, jogos e literatura) e representações em baixa intensidade.
Médio Conteúdo que usa linguagem ofensiva, insultante, zombadora, intimidante ou humilhante em relação a grupos de identidade específicos, inclui representações de busca e execução de instruções prejudiciais, fantasias, glorificação e promoção de danos em média intensidade.
Alto Conteúdos que exibem instruções, ações, danos ou abusos perigosos explícitos e graves; incluem endosso, glorificação ou promoção de atos perigosos graves, formas extremas ou ilegais de danos, radicalização ou troca ou abuso de poder não consensual.

Outros filtros de entrada

Você também pode habilitar filtros especiais para cenários de IA generativos:

  • Ataques de jailbreak: os ataques de jailbreak são avisos do usuário projetados para provocar o modelo de IA generativa a exibir comportamentos os quais foi treinado para evitar ou para quebrar as regras definidas na mensagem do sistema.
  • Ataques indiretos: os ataques indiretos, também conhecidos como ataques de prompt indireto ou ataques de injeção de prompt entre domínios, são uma vulnerabilidade potencial onde terceiros colocam instruções maliciosas dentro de documentos que o sistema de IA generativa pode acessar e processar.

Outros filtros de saída

Você também pode habilitar os seguintes filtros de saída especiais:

  • Material protegido para texto: o texto do material protegido descreve um conteúdo de texto conhecido (por exemplo, letras de músicas, artigos, receitas e conteúdo da web selecionado) que pode ser gerado por grandes modelos de linguagem.
  • Material protegido para código: o código de material protegido descreve o código-fonte que corresponde a um conjunto de código-fonte de repositórios públicos, que pode ser gerado por grandes modelos de linguagem sem a devida citação dos repositórios-fonte.
  • Aterramento: o filtro de detecção de aterramento detecta se as respostas de texto de LLMs (grandes modelos de linguagem) são fundamentadas nos materiais de origem fornecidos pelos usuários.

Criar um filtro de conteúdo na Fábrica de IA do Azure

Para qualquer implantação de modelo no Azure AI Foundry, você pode usar diretamente o filtro de conteúdo padrão, mas talvez queira ter mais controle. Por exemplo, você pode tornar um filtro mais estrito ou mais brando ou habilitar recursos mais avançados, como proteções de prompt e detecção de material protegido.

Dica

Para obter diretrizes sobre filtros de conteúdo no seu projeto do Azure AI Foundry, você pode ler mais em Filtragem de conteúdo do Azure AI Foundry.

Siga essas etapas para criar um filtro de conteúdo:

  1. Acesse a Fábrica de IA do Azure e navegue até seu projeto. Em seguida, selecione a página Proteção + segurança no menu esquerdo e selecione a guia Filtros de conteúdo.

    Captura de tela do botão para criar um novo filtro de conteúdo.

  2. Selecione + Criar filtro de conteúdo.

  3. Na página Informações básicas, insira um nome para a configuração do seu filtro de conteúdo. Selecione uma conexão para associar ao filtro de conteúdo. Em seguida, selecione Avançar.

    Captura de tela da opção de selecionar ou inserir informações básicas, como o nome do filtro, ao criar um filtro de conteúdo.

    Agora você pode configurar os filtros de entrada (para prompts do usuário) e os filtros de saída (para conclusão do modelo).

  4. Na página Filtros de entrada, você pode definir o filtro para o prompt de entrada. Para as quatro primeiras categorias de conteúdo, há três níveis de gravidade configuráveis: baixo, médio e alto. Você pode usar os controles deslizantes para definir o limite de severidade se determinar que o seu aplicativo ou cenário de uso exigem uma filtragem diferente dos valores padrão. Alguns filtros, como Escudos de Prompt e Detecção de material protegido, permitem que você determine se o modelo deve anotar e/ou bloquear o conteúdo. Selecionar Apenas Anotar executa o modelo respectivo e retorna anotações por meio da resposta da API, mas não filtrará o conteúdo. Além de anotar, você também pode optar por bloquear o conteúdo.

    Se o seu caso de uso foi aprovado para filtros de conteúdo modificados, você receberá controle total sobre as configurações de filtragem de conteúdo e poderá optar por desativar parcialmente ou totalmente a filtragem, ou habilitar apenas anotar para as categorias de danos ao conteúdo (violência, ódio, sexual e automutilação).

    O conteúdo será anotado por categoria e bloqueado de acordo com o limite que você definir. Para as categorias violência, ódio, sexual e automutilação, ajuste o controle deslizante para bloquear conteúdo de gravidade alta, média ou baixa.

    Captura de tela da tela do filtro de entrada.

  5. Na página Filtros de saída, você pode configurar o filtro de saída, que será aplicado a todo o conteúdo de saída gerado pelo seu modelo. Configure os filtros individuais como antes. Esta página também fornece a opção de modo Streaming, que permite filtrar o conteúdo quase em tempo real conforme ele é gerado pelo modelo, reduzindo a latência. Quando terminar, selecione Avançar.

    O conteúdo será anotado por cada categoria e bloqueado de acordo com o limite. Para conteúdo violento, conteúdo de ódio, conteúdo sexual e categoria de conteúdo de automutilação, ajuste o limite para bloquear conteúdo prejudicial com níveis de gravidade iguais ou superiores.

    Captura de tela da tela do filtro de saída.

  6. Opcionalmente, na página Implantação, você pode associar o filtro de conteúdo a uma implantação. Se uma implantação selecionada já tiver um filtro anexado, você deverá confirmar se deseja substituí-la. Você também pode associar o filtro de conteúdo a uma implantação posteriormente. Selecione Criar.

    Captura de tela da opção de selecionar uma implantação ao criar um filtro de conteúdo.

    As configurações de filtragem de conteúdo são criadas no nível do hub no portal da Fábrica de IA do Azure. Saiba mais sobre a configurabilidade na documentação do Serviço OpenAI do Azure.

  7. Na página Revisar, revise as configurações e selecione Criar filtro.

Usar uma lista de bloqueados como um filtro

Você pode aplicar uma lista de bloqueios como um filtro de entrada ou de saída ou ambos. Habilite a opção Lista de bloqueio na página Filtro de entrada e/ou Filtro de saída. Selecione uma ou mais listas de bloqueio na lista suspensa ou use a lista de bloqueio interna de palavrões. Você pode combinar várias listas de bloqueio no mesmo filtro.

Aplicar um filtro de conteúdo

O processo de criação de filtro oferece a opção de aplicar o filtro às implantações desejadas. Você também pode alterar ou remover filtros de conteúdo de suas implantações a qualquer momento.

Siga essas etapas para aplicar um filtro de conteúdo a uma implantação:

  1. Acesse a Fábrica de IA do Azure e selecione um projeto.

  2. Selecione Modelos + pontos de extremidade no painel esquerdo, escolha uma das implantações e selecione Editar.

    Captura de tela do botão para editar uma implantação.

  3. Na janela Atualizar implantação, selecione o filtro de conteúdo que deseja aplicar à implantação. Em seguida, selecione Salvar e fechar.

    Captura de tela da aplicação do filtro de conteúdo.

    Você também pode editar e excluir uma configuração de filtro de conteúdo, se necessário. Antes de excluir uma configuração de filtragem de conteúdo, você precisará desatribuir e substituí-la de qualquer implantação na guia Implantações.

Agora, você pode acessar o playground para testar se o filtro de conteúdo funciona conforme o esperado.

Configurabilidade (versão prévia)

A configuração padrão de filtragem de conteúdo para a série de modelos GPT é definida para filtrar no limite de gravidade médio para todas as quatro categorias de conteúdo prejudicial (ódio, violência, sexual e automutilação) e se aplica a ambos os prompts (texto, texto multimodal/ imagem) e conclusões (texto). Isso significa que o conteúdo detectado no nível de gravidade médio ou alto é filtrado, enquanto o conteúdo detectado no nível de gravidade baixo não é filtrado pelos filtros de conteúdo. Para DALL-E, o limite de gravidade padrão é definido como baixo para prompts (texto) e conclusões (imagens), para que o conteúdo detectado em níveis de gravidade baixo, médio ou alto seja filtrado.

O recurso de configurabilidade permite que os clientes ajustem as configurações, separadamente para prompts e conclusões, para filtrar o conteúdo de cada categoria de conteúdo em diferentes níveis de gravidade, conforme descrito na tabela abaixo:

Gravidade filtrada Configurável para prompts Configurável para conclusões Descrições
Baixo, médio ou alto Sim Sim Configuração de filtragem mais rigorosa. O conteúdo detectado nos níveis de gravidade baixo, médio e alto é filtrado.
Médio, alto Sim Yes O conteúdo detectado no nível de severidade baixo não é filtrado, enquanto o conteúdo nos níveis médio e alto é filtrado.
Alto Sim Yes O conteúdo detectado nos níveis de gravidade baixo e médio não será filtrado. Somente o conteúdos com nível de gravidade alto serão filtrados. Exige aprovação1.
Nenhum filtro Se aprovado1 Se aprovado1 nenhum conteúdo será filtrado, independentemente do nível de gravidade detectado. Exige aprovação1.

1 No caso dos modelos do OpenAI do Azure, somente os clientes que foram aprovados para filtragem de conteúdo modificado têm controle completo sobre a filtragem de conteúdo, incluindo a configuração dos filtros de conteúdo apenas no nível de severidade alto ou a desativação dos filtros de conteúdo. Aplique filtros de conteúdo modificados por meio destes formulários: Revisão de Acesso Limitado do OpenAI do Azure: filtros de conteúdo modificados e Monitoramento de abuso modificado.

Os clientes são responsáveis por garantir que os aplicativos que integram o OpenAI do Azure estejam em conformidade com o Código de conduta.

Próximas etapas