Monitoramento de Abuso
O Serviço OpenAI do Azure detecta e mitiga instâncias de conteúdo recorrente e/ou comportamentos que sugerem o uso do serviço de maneira que possa violar o Código de Conduta ou outros termos de produto aplicáveis. Detalhes sobre como os dados são tratados podem ser encontrados na página Dados, Privacidade e Segurança.
Componentes do monitoramento de abuso
Há vários componentes no monitoramento de abuso:
- Classificação de conteúdo: modelos de classificador detectam texto e/ou imagens prejudiciais em prompts de usuário (entradas) e conclusões (saídas). O sistema procura categorias de danos conforme definido nos Requisitos de conteúdo e atribui níveis de severidade, conforme descrito em mais detalhes na página Filtragem de conteúdo. Os sinais de classificação de conteúdo contribuem para a detecção de padrões, conforme descrito abaixo.
- Captura de Padrões de Abuso: o sistema de monitoramento de abuso do Serviço OpenAI do Azure analisa os padrões de uso do cliente e emprega algoritmos e heurísticas para detectar e pontuar indicadores de possíveis abusos. Os padrões detectados consideram, por exemplo, a frequência e a severidade em que o conteúdo nocivo é detectado (conforme indicado nos sinais do classificador de conteúdo) em prompts e conclusões de um cliente, bem como a intencionalidade do comportamento. As tendências e a urgência do padrão detectado também afetarão a pontuação da severidade potencial do abuso. Por exemplo, um volume maior de conteúdo nocivo classificado como maior severidade ou conduta recorrente indicando intencionalidade (como tentativas recorrentes de jailbreak) são mais propensos a receber uma pontuação alta indicando possíveis abusos.
- Revisão e Decisão: prompts e conclusões sinalizados por meio da classificação de conteúdo e/ou identificados como parte de um padrão potencialmente abusivo de uso são submetidos a outro processo de revisão para ajudar a confirmar a análise do sistema e informar as decisões de ação. Essa revisão é realizada por meio de dois métodos: revisão humana e revisão de IA.
- Por padrão, se as solicitações e conclusões forem sinalizadas por meio da classificação de conteúdo como prejudicial e/ou identificada como parte de um padrão de uso potencialmente abusivo, elas poderão ser amostradas para revisão automatizada usando uma LLM em vez de um revisor humano. A LLM usada para essa finalidade processa prompts e conclusões apenas para confirmar a análise do sistema e informar decisões de ação; prompts e conclusões que passam por essa revisão de LLM não são armazenados pelo sistema ou usados para treinar a LLM ou outros sistemas.
- Em alguns casos, quando a revisão automatizada não atende aos limites de confiança aplicáveis em contextos complexos ou se os sistemas de revisão de LLM não estão disponíveis, a revisão humana pode ser necessária para um julgamento extra. Isso pode ajudar a aprimorar a precisão geral da análise de abuso. Funcionários autorizados da Microsoft podem avaliar o conteúdo sinalizado e confirmar ou corrigir a classificação ou determinação com base em diretrizes e políticas predefinidas. Prompts e conclusões podem ser acessados para revisão humana somente por funcionários autorizados da Microsoft por meio de SAWs (Estações de Trabalho de Acesso Seguro) com aprovação de solicitação JIT (Just-In-Time) concedida pelos gerentes de equipe. Para os recursos do Serviço OpenAI do Azure implantados no Espaço Econômico Europeu, os funcionários autorizados da Microsoft estão localizados no Espaço Econômico Europeu. Esse processo de revisão humana não ocorrerá se o cliente tiver sido aprovado para monitoramento de abuso modificado.
- Notificação e Ação: quando um limite de comportamento abusivo é confirmado com base nas etapas anteriores, o cliente é informado da determinação por email. Exceto em casos de abuso severo ou recorrente, os clientes normalmente têm a oportunidade de explicar ou corrigir e implementar mecanismos para evitar a recorrência do comportamento abusivo. A falha em resolver o comportamento, ou abuso severo ou recorrente, pode resultar em suspensão ou encerramento do acesso do cliente aos recursos e/ou funcionalidades do OpenAI do Azure.
Monitoramento de abuso modificado
Alguns clientes podem querer usar o Serviço OpenAI do Azure para um caso de uso que envolva o processamento de dados altamente confidenciais ou altamente sensíveis ou, caso contrário, podem concluir que não querem ou não têm o direito de permitir que a Microsoft armazene e realize uma revisão humana em seus prompts e conclusões para detecção de abuso. Para resolver essas preocupações, a Microsoft permite que os clientes que atendem a critérios adicionais de elegibilidade de Acesso Limitado solicitem a modificação do monitoramento de abuso preenchendo este formulário. Saiba mais sobre a aplicação de monitoramento de abuso modificado no Acesso limitado ao Serviço OpenAI do Azure e sobre o impacto do monitoramento de abuso modificado no processamento de dados em Dados, privacidade e segurança do Serviço OpenAI do Azure.
Observação
Quando o monitoramento de abuso é modificado e a revisão humana não é executada, a detecção de possíveis abusos pode ser menos precisa. Os clientes serão notificados sobre a possível detecção de abuso, conforme descrito acima, e deverão estar preparados para responder a essa notificação para evitar a interrupção do serviço, se possível.
Próximas etapas
- Saiba mais sobre os modelos subjacentes que alimentam o OpenAI do Azure.
- Saiba mais sobre como entender e mitigar riscos associados ao seu aplicativo: Visão geral das práticas de IA responsável para modelos do OpenAI do Azure.
- Saiba mais sobre como os dados são processados em conexão com a filtragem de conteúdo e o monitoramento de abuso: dados, privacidade e segurança para o Serviço OpenAI do Azure.