Identificar danos potenciais

Concluído

A primeira etapa de um processo de IA generativa responsável é identificar os danos potenciais que podem afetar sua solução planejada. Há quatro etapas nesta etapa, como mostrado aqui:

Diagrama mostrando etapas para identificar, priorizar, testar e compartilhar danos potenciais.

  1. Identificar danos potenciais
  2. Priorizar danos identificados
  3. Testar e verificar os danos priorizados
  4. Documente e partilhe os danos verificados

1: Identificar danos potenciais

Os danos potenciais que são relevantes para sua solução de IA generativa dependem de vários fatores, incluindo os serviços e modelos específicos usados para gerar saída, bem como quaisquer dados de ajuste fino ou aterramento usados para personalizar as saídas. Alguns tipos comuns de danos potenciais em uma solução de IA generativa incluem:

  • Gerar conteúdo ofensivo, pejorativo ou discriminatório.
  • Gerar conteúdo que contenha imprecisões factuais.
  • Gerar conteúdo que incentive ou apoie comportamentos ou práticas ilegais ou antiéticas.

Para compreender completamente as limitações conhecidas e o comportamento dos serviços e modelos da sua solução, consulte a documentação disponível. Por exemplo, o Serviço OpenAI do Azure inclui uma nota de transparência, que você pode usar para entender considerações específicas relacionadas ao serviço e aos modelos que ele inclui. Além disso, os desenvolvedores de modelos individuais podem fornecer documentação, como a placa do sistema OpenAI para o modelo GPT-4.

Considere rever as orientações do Guia de Avaliação de Impacto de IA Responsável da Microsoft e usar o modelo de Avaliação de Impacto de IA Responsável associado para documentar danos potenciais.

Analise as informações e diretrizes dos recursos que você usa para ajudar a identificar possíveis danos.

2: Priorize os danos

Para cada dano potencial identificado, avalie a probabilidade de sua ocorrência e o nível de impacto resultante, caso ocorra. Em seguida, use essas informações para priorizar os danos com os danos mais prováveis e impactantes primeiro. Essa priorização permitirá que você se concentre em encontrar e mitigar os riscos mais prejudiciais em sua solução.

A priorização deve levar em conta o uso pretendido da solução, bem como o potencial de uso indevido; e pode ser subjetivo. Por exemplo, suponha que você esteja desenvolvendo um copiloto de cozinha inteligente que forneça assistência de receita para chefs e cozinheiros amadores. Os danos potenciais podem incluir:

  • A solução fornece tempos de cozimento imprecisos, resultando em alimentos mal cozidos que podem causar doenças.
  • Quando solicitado, a solução fornece uma receita para um veneno letal que pode ser fabricado a partir de ingredientes do dia a dia.

Embora nenhum desses resultados seja desejável, você pode decidir que o potencial da solução para apoiar a criação de um veneno letal tem maior impacto do que o potencial de criar alimentos mal cozidos. No entanto, dado o cenário de uso central da solução, você também pode supor que a frequência com que os tempos de cozimento imprecisos são sugeridos provavelmente será muito maior do que o número de usuários pedindo explicitamente uma receita de veneno. A determinação da prioridade final é um assunto de discussão para a equipe de desenvolvimento, que pode envolver a consultoria de especialistas em políticas ou jurídicos, a fim de priorizar suficientemente.

3: Testar e verificar a presença de danos

Agora que você tem uma lista de prioridades, você pode testar sua solução para verificar se os danos ocorrem; e, em caso afirmativo, em que condições. O teste também pode revelar a presença de danos não identificados anteriormente que você pode adicionar à lista.

Uma abordagem comum para testar possíveis danos ou vulnerabilidades em uma solução de software é usar testes de "equipe vermelha", nos quais uma equipe de testadores deliberadamente investiga a solução em busca de fraquezas e tenta produzir resultados prejudiciais. Exemplos de testes para a solução de copiloto de cozinha inteligente discutidos anteriormente podem incluir a solicitação de receitas venenosas ou receitas rápidas que incluam ingredientes que devem ser bem cozidos. Os sucessos da equipe vermelha devem ser documentados e revisados para ajudar a determinar a probabilidade realista de ocorrência de saída prejudicial quando a solução é usada.

Nota

O Red Teaming é uma estratégia frequentemente usada para encontrar vulnerabilidades de segurança ou outras fraquezas que podem comprometer a integridade de uma solução de software. Ao estender essa abordagem para encontrar conteúdo prejudicial da IA generativa, você pode implementar um processo de IA responsável que se baseia e complementa as práticas de segurança cibernética existentes.

Para saber mais sobre o Red Teaming para soluções de IA generativa, consulte Introdução aos modelos de linguagem grande (LLMs) de agrupamento vermelho na documentação do Serviço OpenAI do Azure.

4: Documentar e compartilhar detalhes de danos

Quando tiver reunido evidências para apoiar a presença de danos potenciais na solução, documente os detalhes e compartilhe-os com as partes interessadas. A lista de danos priorizados deve então ser mantida e adicionada se novos danos forem identificados.