Compartilhar via


Como configurar filtros de conteúdo com a Fábrica de IA do Azure

O sistema de filtragem de conteúdo integrado à Fábrica de IA do Azure é executado junto com os modelos principais, incluindo os modelos de geração de imagem DALL-E. Ele usa um conjunto de modelos de classificação de várias classes para detectar quatro categorias de conteúdo nocivo (violência, ódio, sexual e automutilação) em quatro níveis de gravidade, respectivamente (seguro, baixo, médio e alto), e classificadores binários opcionais para detectar o risco de violação de cadeias, texto existente e código nos repositórios públicos.

A configuração de filtragem de conteúdo padrão é definida para filtrar no limite de gravidade médio para todas as quatro categorias de danos de conteúdo para prompts e conclusões. Isso significa que o conteúdo detectado no nível de gravidade médio ou alto é filtrado, enquanto o conteúdo detectado no nível de gravidade baixo ou seguro não é filtrado pelos filtros de conteúdo. Saiba mais sobre as categorias de conteúdo, os níveis de gravidade e o comportamento do sistema de filtragem de conteúdo aqui.

A detecção de risco de jailbreak e os modelos de texto e código protegidos são opcionais e ativados por padrão. Para modelos de código e texto de material protegido e jailbreak, o recurso de configurabilidade permite que todos os clientes ativem e desativem os modelos. Os modelos estão ativados por padrão e podem ser desativados de acordo com seu cenário. Alguns modelos devem estar ativados para determinados cenários manterem a cobertura no Compromisso de Direitos Autorais do Cliente.

Observação

Todos os clientes têm a capacidade de modificar os filtros de conteúdo e configurar os limites de gravidade (baixo, médio, alto). A aprovação é necessária para desativar parcial ou totalmente os filtros de conteúdo. Os clientes gerenciados só podem solicitar o controle total da filtragem de conteúdo por meio deste formulário: Revisão de acesso limitado do OpenAI do Azure: Filtros de Conteúdo Modificados. No momento, não é possível se tornar um cliente gerenciado.

Os filtros de conteúdo podem ser configurados no nível do recurso. Uma vez que uma nova configuração é criada, ela pode ser associada a uma ou mais implantações. Para obter mais informações sobre a implantação do modelo, consulte o Guia de implantação de recursos.

Pré-requisitos

  • Você precisa ter um recurso de OpenAI do Azure e uma implantação de LLM (modelo de linguagem grande) para configurar filtros de conteúdo. Siga nosso início rápido para começar.

Entender a configurabilidade do filtro de conteúdo

O Serviço OpenAI do Azure inclui configurações de segurança padrão aplicadas a todos os modelos, excluindo o Whisper do OpenAI do Azure. Essas configurações fornecem uma experiência responsável por padrão, incluindo modelos de filtragem de conteúdo, listas de bloqueio, transformação de prompt, credenciais de conteúdo e outros. Leia mais sobre isso aqui.

Todos os clientes também podem configurar filtros de conteúdo e criar políticas de segurança personalizadas adaptadas aos requisitos de caso de uso. O recurso de configurabilidade permite que os clientes ajustem as configurações, separadamente para prompts e conclusões, para filtrar o conteúdo de cada categoria de conteúdo em diferentes níveis de gravidade, conforme descrito na tabela abaixo. O conteúdo detectado no nível de gravidade "seguro" é rotulado em anotações, mas não está sujeito a filtragem e não é configurável.

Gravidade filtrada Configurável para prompts Configurável para conclusões Descrições
Baixo, médio ou alto Sim Sim Configuração de filtragem mais rigorosa. O conteúdo detectado nos níveis de gravidade baixo, médio e alto é filtrado.
Médio, alto Sim Yes O conteúdo detectado no nível de severidade baixo não é filtrado, enquanto o conteúdo nos níveis médio e alto é filtrado.
Alto Sim Yes O conteúdo detectado nos níveis de gravidade baixo e médio não será filtrado. Somente o conteúdos com nível de gravidade alto serão filtrados.
Nenhum filtro Se aprovado1 Se aprovado1 nenhum conteúdo será filtrado, independentemente do nível de gravidade detectado. Exige aprovação1.
Anotar somente Se aprovado1 Se aprovado1 Desabilita a funcionalidade de filtro para que o conteúdo não seja bloqueado, mas as anotações são retornadas por meio da resposta à API. Exige aprovação1.

1 Para modelos de OpenAI do Azure, somente os clientes aprovados para filtragem de conteúdo modificado têm o controle completo de filtragem de conteúdo e podem desativar os filtros de conteúdo. Aplique filtros de conteúdo modificados por meio deste formulário: Revisão de acesso limitado do OpenAI do Azure: filtros de conteúdo modificados. Para clientes do Azure Governamental, solicite filtros de conteúdo modificados por meio deste formulário: Azure Governamental – Solicitar filtragem de conteúdo modificada para o Serviço OpenAI do Azure.

Filtros de conteúdo configuráveis para entradas (solicitações) e saídas (conclusões) estão disponíveis para todos os modelos do OpenAI do Azure.

As configurações de filtragem de conteúdo são criadas em um Recurso no portal do Azure AI Foundry e podem ser associadas às Implantações. Saiba mais sobre configurabilidade aqui.

Os clientes são responsáveis por garantir que os aplicativos que integram o OpenAI do Azure estejam em conformidade com o Código de conduta.

Entender outros filtros

Você pode configurar as categorias de filtro a seguir, além dos filtros de categoria de danos padrão.

Categoria de filtro Status Configuração padrão Aplicado ao prompt ou à conclusão? Descrição
Prompt Shields para ataques diretos (jailbreak) GA Ativado Prompt de usuário Filtra/anota os prompts do usuário que podem apresentar um risco de jailbreak. Para obter mais informações sobre anotações, acesse Filtragem de conteúdo da Fábrica de IA do Azure.
Prompt Shields para ataques indiretos GA Desativado Prompt de usuário Filtre/anote ataques indiretos, também conhecidos como ataques de prompt indireto ou ataques de injeção de prompt entre domínios, uma vulnerabilidade potencial onde terceiros colocam instruções maliciosas dentro de documentos que o sistema de IA generativa pode acessar e processar. Requer: incorporação e formatação de documentos.
Material protegido – código GA Ativado Completion Filtra o código protegido ou obtém as informações de citação e licença de exemplo em anotações para snippets de código que correspondem a quaisquer fontes de código público, alimentadas pelo GitHub Copilot. Para obter mais informações sobre como consumir anotações, confira oguia de conceitos de filtragem de conteúdo
Material protegido – texto GA Ativado Completion Identifica e impede que o conteúdo de texto conhecido seja exibido na saída do modelo (por exemplo, letras de música, receitas e conteúdo da Web selecionado).
Fundamentação* Visualizar Desativado Completion Detecta se as respostas de texto de grandes modelos de linguagem (LLMs) são baseadas nos materiais de origem fornecidos pelos usuários. A falta de fundamentação refere-se a casos em que os LLMs produzem informações que não são factuais ou são imprecisas em relação ao que estava presente nos materiais de origem. Requer: incorporação e formatação de documentos.

Criar um filtro de conteúdo na Fábrica de IA do Azure

Para qualquer implantação de modelo no Azure AI Foundry, você pode usar diretamente o filtro de conteúdo padrão, mas talvez queira ter mais controle. Por exemplo, você pode tornar um filtro mais estrito ou mais brando ou habilitar recursos mais avançados, como proteções de prompt e detecção de material protegido.

Dica

Para obter diretrizes sobre filtros de conteúdo no seu projeto do Azure AI Foundry, você pode ler mais em Filtragem de conteúdo do Azure AI Foundry.

Siga essas etapas para criar um filtro de conteúdo:

  1. Acesse a Fábrica de IA do Azure e navegue até seu projeto. Em seguida, selecione a página Proteção + segurança no menu esquerdo e selecione a guia Filtros de conteúdo.

    Captura de tela do botão para criar um novo filtro de conteúdo.

  2. Selecione + Criar filtro de conteúdo.

  3. Na página Informações básicas, insira um nome para a configuração do seu filtro de conteúdo. Selecione uma conexão para associar ao filtro de conteúdo. Em seguida, selecione Avançar.

    Captura de tela da opção de selecionar ou inserir informações básicas, como o nome do filtro, ao criar um filtro de conteúdo.

    Agora você pode configurar os filtros de entrada (para prompts do usuário) e os filtros de saída (para conclusão do modelo).

  4. Na página Filtros de entrada, você pode definir o filtro para o prompt de entrada. Para as quatro primeiras categorias de conteúdo, há três níveis de gravidade configuráveis: baixo, médio e alto. Você pode usar os controles deslizantes para definir o limite de severidade se determinar que o seu aplicativo ou cenário de uso exigem uma filtragem diferente dos valores padrão. Alguns filtros, como Escudos de Prompt e Detecção de material protegido, permitem que você determine se o modelo deve anotar e/ou bloquear o conteúdo. Selecionar Apenas Anotar executa o modelo respectivo e retorna anotações por meio da resposta da API, mas não filtrará o conteúdo. Além de anotar, você também pode optar por bloquear o conteúdo.

    Se o seu caso de uso foi aprovado para filtros de conteúdo modificados, você receberá controle total sobre as configurações de filtragem de conteúdo e poderá optar por desativar parcialmente ou totalmente a filtragem, ou habilitar apenas anotar para as categorias de danos ao conteúdo (violência, ódio, sexual e automutilação).

    O conteúdo será anotado por categoria e bloqueado de acordo com o limite que você definir. Para as categorias violência, ódio, sexual e automutilação, ajuste o controle deslizante para bloquear conteúdo de gravidade alta, média ou baixa.

    Captura de tela da tela do filtro de entrada.

  5. Na página Filtros de saída, você pode configurar o filtro de saída, que será aplicado a todo o conteúdo de saída gerado pelo seu modelo. Configure os filtros individuais como antes. Esta página também fornece a opção de modo Streaming, que permite filtrar o conteúdo quase em tempo real conforme ele é gerado pelo modelo, reduzindo a latência. Quando terminar, selecione Avançar.

    O conteúdo será anotado por cada categoria e bloqueado de acordo com o limite. Para conteúdo violento, conteúdo de ódio, conteúdo sexual e categoria de conteúdo de automutilação, ajuste o limite para bloquear conteúdo prejudicial com níveis de gravidade iguais ou superiores.

    Captura de tela da tela do filtro de saída.

  6. Opcionalmente, na página Implantação, você pode associar o filtro de conteúdo a uma implantação. Se uma implantação selecionada já tiver um filtro anexado, você deverá confirmar se deseja substituí-la. Você também pode associar o filtro de conteúdo a uma implantação posteriormente. Selecione Criar.

    Captura de tela da opção de selecionar uma implantação ao criar um filtro de conteúdo.

    As configurações de filtragem de conteúdo são criadas no nível do hub no portal da Fábrica de IA do Azure. Saiba mais sobre a configurabilidade na documentação do Serviço OpenAI do Azure.

  7. Na página Revisar, revise as configurações e selecione Criar filtro.

Usar uma lista de bloqueados como um filtro

Você pode aplicar uma lista de bloqueios como um filtro de entrada ou de saída ou ambos. Habilite a opção Lista de bloqueio na página Filtro de entrada e/ou Filtro de saída. Selecione uma ou mais listas de bloqueio na lista suspensa ou use a lista de bloqueio interna de palavrões. Você pode combinar várias listas de bloqueio no mesmo filtro.

Aplicar um filtro de conteúdo

O processo de criação de filtro oferece a opção de aplicar o filtro às implantações desejadas. Você também pode alterar ou remover filtros de conteúdo de suas implantações a qualquer momento.

Siga essas etapas para aplicar um filtro de conteúdo a uma implantação:

  1. Acesse a Fábrica de IA do Azure e selecione um projeto.

  2. Selecione Modelos + pontos de extremidade no painel esquerdo, escolha uma das implantações e selecione Editar.

    Captura de tela do botão para editar uma implantação.

  3. Na janela Atualizar implantação, selecione o filtro de conteúdo que deseja aplicar à implantação. Em seguida, selecione Salvar e fechar.

    Captura de tela da aplicação do filtro de conteúdo.

    Você também pode editar e excluir uma configuração de filtro de conteúdo, se necessário. Antes de excluir uma configuração de filtragem de conteúdo, você precisará desatribuir e substituí-la de qualquer implantação na guia Implantações.

Agora, você pode acessar o playground para testar se o filtro de conteúdo funciona conforme o esperado.

Relatar comentários de filtragem de conteúdo

Se você estiver enfrentando um problema de filtragem de conteúdo, selecione o botão Comentários de Filtros no topo do playground. Isso é habilitado no playground Imagens, Chat e Conclusões quando você envia um prompt.

Quando o diálogo aparecer, selecione o problema de filtragem de conteúdo apropriado. Inclua o máximo de detalhes possível em relação ao seu problema de filtragem de conteúdo, como o prompt específico e o erro de filtragem de conteúdo que você encontrou. Não inclua nenhuma informação privada ou confidenciais.

Para suporte, envie um tíquete de suporte.

Seguir as práticas recomendadas

Recomendamos que você informe suas decisões de configuração de filtragem de conteúdo por meio de um processo iterativo de identificação (por exemplo, teste de agrupamento vermelho, teste de estresse e análise) e medição para abordar os possíveis danos que são relevantes para um modelo, aplicativo e cenário de implantação específicos. Após a implementação de mitigações, como a filtragem de conteúdo, repita a medição para testar a eficácia. Recomendações e práticas recomendadas para IA Responsável para o OpenAI do Azure, com base no IA Responsável da Microsoft Standard, podem ser encontradas na Visão Geral de IA Responsável para o OpenAI do Azure.