Monitorização de Abusos

Artigo
11/19/2024

O Serviço Azure OpenAI deteta e atenua instâncias de conteúdo e/ou comportamentos recorrentes que sugerem a utilização do serviço de uma forma que pode violar o Código de Conduta ou outros termos de produto aplicáveis. Detalhes sobre como os dados são tratados podem ser encontrados na página Dados, Privacidade e Segurança .

Componentes da monitorização de abusos

Existem vários componentes para abusar do monitoramento:

Classificação de conteúdo: Os modelos de classificadores detetam texto e/ou imagens prejudiciais em prompts do usuário (entradas) e finalizações (saídas). O sistema procura categorias de danos, conforme definido nos Requisitos de conteúdo, e atribui níveis de gravidade conforme descrito com mais detalhes na página Filtragem de conteúdo . Os sinais de classificação de conteúdo contribuem para a deteção de padrões, conforme descrito abaixo.
Captura de Padrão de Abuso: o sistema de monitoramento de abuso do Serviço Azure OpenAI analisa os padrões de uso do cliente e emprega algoritmos e heurísticas para detetar e pontuar indicadores de abuso potencial. Os padrões detetados consideram, por exemplo, a frequência e a gravidade com que o conteúdo nocivo é detetado (conforme indicado nos sinais do classificador de conteúdo) nos prompts e conclusões de um cliente, bem como a intencionalidade do comportamento. As tendências e a urgência do padrão detetado também afetarão a pontuação da gravidade do abuso potencial. Por exemplo, um maior volume de conteúdo nocivo classificado como de maior gravidade, ou conduta recorrente indicando intencionalidade (como tentativas recorrentes de jailbreak) são mais propensos a receber uma pontuação alta indicando abuso potencial.
Revisão e decisão: solicitações e conclusões sinalizadas por meio da classificação de conteúdo e/ou identificadas como parte de um padrão de uso potencialmente abusivo são submetidas a outro processo de revisão para ajudar a confirmar a análise do sistema e informar as decisões de ação. Essa revisão é conduzida através de dois métodos: revisão humana ou revisão de IA.
- Por padrão, se prompts e conclusões forem sinalizados por meio da classificação de conteúdo como prejudiciais e/ou identificados como parte de um padrão de uso potencialmente abusivo, eles poderão ser amostrados para revisão automatizada usando um LLM em vez de um revisor humano. O LLM usado para este fim processa prompts e finalizações apenas para confirmar a análise do sistema e informar as decisões de ação; prompts e finalizações que passam por tal revisão LLM não são armazenados pelo sistema ou usados para treinar o LLM ou outros sistemas.
- Em alguns casos, quando a revisão automatizada não atinge os limites de confiança aplicáveis em contextos complexos ou se os sistemas de revisão LLM não estão disponíveis, a revisão humana pode ser introduzida para fazer um julgamento extra. Isso pode ajudar a melhorar a precisão geral da análise de abuso. Os funcionários autorizados da Microsoft podem avaliar o conteúdo sinalizado e confirmar ou corrigir a classificação ou determinação com base em diretrizes e políticas predefinidas. Os prompts e as conclusões podem ser acessados para revisão humana somente por funcionários autorizados da Microsoft por meio de estações de trabalho de acesso seguro (SAWs) com aprovação de solicitação Just-In-Time (JIT) concedida pelos gerentes de equipe. Para os recursos do Serviço OpenAI do Azure implantados no Espaço Econômico Europeu, os funcionários autorizados da Microsoft estão localizados no Espaço Econômico Europeu. Esse processo de revisão humana não ocorrerá se o cliente tiver sido aprovado para monitoramento de abuso modificado.
Notificação e Ação: Quando um limite de comportamento abusivo é confirmado com base nas etapas anteriores, o cliente é informado da determinação por e-mail. Exceto em casos de abuso grave ou recorrente, os clientes normalmente têm a oportunidade de explicar ou remediar — e implementar mecanismos para evitar a recorrência — do comportamento abusivo. A falha em abordar o comportamento — ou abuso recorrente ou grave — pode resultar na suspensão ou encerramento do acesso do cliente aos recursos e/ou capacidades do Azure OpenAI.

Monitoramento de abuso modificado

Alguns clientes podem pretender utilizar o Azure OpenAI Service para um caso de utilização que envolva o processamento de dados altamente sensíveis ou confidenciais ou podem concluir que não pretendem ou não têm o direito de permitir que a Microsoft armazene e conduza revisões humanas nos seus pedidos e conclusões para a deteção de abusos. Para resolver essas preocupações, a Microsoft permite que os clientes que atendem aos critérios de elegibilidade de Acesso Limitado adicionais se candidatem para modificar o monitoramento de abuso preenchendo este formulário. Saiba mais sobre como solicitar monitoramento de abuso modificado em Acesso limitado ao Serviço OpenAI do Azure e sobre o impacto do monitoramento de abuso modificado no processamento de dados em Dados, privacidade e segurança para o Serviço OpenAI do Azure.

Nota

Quando o monitoramento de abuso é modificado e a revisão humana não é realizada, a deteção de abuso potencial pode ser menos precisa. Os clientes são notificados da deteção de potenciais abusos, conforme descrito acima, e devem estar preparados para responder a essa notificação para evitar a interrupção do serviço, se possível.

Próximos passos

Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.
Saiba mais sobre como compreender e mitigar os riscos associados ao seu aplicativo: Visão geral das práticas de IA responsável para modelos OpenAI do Azure.
Saiba mais sobre como os dados são processados na filtragem de conteúdo e monitoramento de abuso: Dados, privacidade e segurança para o Serviço OpenAI do Azure.

Partilhar via

Monitorização de Abusos

Componentes da monitorização de abusos

Monitoramento de abuso modificado

Próximos passos

Comentários

Recursos adicionais