Compartilhar via


Nota de transparência das avaliações de segurança do Azure AI Foundry

Importante

Os itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

O que é uma nota de transparência?

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, as pessoas que serão afetadas por ela e o ambiente em que ela foi implantada. Criar um sistema adequado para sua finalidade pretendida requer uma compreensão de como a tecnologia funciona, quais são suas funcionalidades e limitações e como alcançar o melhor desempenho. As Notas de Transparência da Microsoft se destinam a ajudar você a entender como funciona a nossa tecnologia de IA, as escolhas que os responsáveis pelo sistema podem fazer que influenciam o desempenho e o comportamento do sistema e a importância de pensar no sistema como um todo, incluindo a tecnologia, as pessoas e o ambiente. Você pode usar Notas de Transparência ao desenvolver ou implantar seu sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.

As Notas de Transparência da Microsoft fazem parte de um trabalho mais amplo para colocar nossos Princípios de IA em prática. Para saber mais, confira os Princípios de IA da Microsoft.

O básico das avaliações de segurança do Azure AI Foundry

Introdução

As avaliações de segurança do portal do Azure AI Foundry permitem que os usuários avaliem a saída do seu aplicativo de IA gerativa para riscos de conteúdo textual: conteúdo odioso e injusto, conteúdo sexual, conteúdo violento, conteúdo relacionado a automutilação, vulnerabilidade de jailbreak. As avaliações de segurança também podem ajudar a gerar conjuntos de dados adversários para acelerar e ampliar as operações de equipes vermelhas. As avaliações de segurança do Azure AI Foundry refletem os compromissos da Microsoft em garantir que os sistemas de IA sejam construídos de maneira segura e responsável, operacionalizando nossos princípios de IA Responsável.

Principais termos

  • Conteúdo de ódio e injusto refere-se a qualquer linguagem de ódio ou representações injustas de indivíduos e grupos sociais relacionadas a fatores como raça, etnia, nacionalidade, gênero, orientação sexual, religião, status de imigração, capacidade, aparência pessoal e tamanho do corpo, entre outros. A injustiça ocorre quando os sistemas de IA tratam ou representam grupos sociais de forma injusta, criando ou contribuindo para desigualdades sociais.
  • Conteúdo sexual descreve a linguagem relacionada a órgãos anatômicos e genitais, relacionamentos românticos, atos retratados em termos eróticos, gravidez, atos sexuais físicos (como agressão ou violência sexual), prostituição, pornografia e abuso.
  • Conteúdo violento descreve a linguagem relacionada a ações físicas destinadas a ferir, maltratar, causar dano ou matar alguém ou algo. Também inclui descrições de armamentos e armas, além de entidades relacionadas, como fabricantes e associações.
  • Conteúdo relacionado à automutilação inclui linguagem referente a ações destinadas a ferir, maltratar ou causar dano ao corpo de alguém ou referente ao suicídio.
  • Jailbreak, ataques de solicitação direta ou ataques de injeção de solicitação do usuário referem-se a usuários que manipulam solicitações para injetar entradas prejudiciais em LLMs a fim de distorcer ações e resultados. Um exemplo de um comando de jailbreak é um ataque 'DAN' (Do Anything Now), que pode enganar o LLM para gerar conteúdo inadequado ou ignorar restrições impostas pelo sistema.
  • Taxa de defeitos (risco de conteúdo) é definida como a porcentagem de instâncias no conjunto de dados de teste que ultrapassam um limite na escala de severidade em todo o tamanho do conjunto de dados.
  • Equipe vermelha tem descrito historicamente ataques adversários sistemáticos para testar vulnerabilidades de segurança. Com o surgimento dos LLMs (modelos de linguagem grandes), o termo se estendeu além da segurança cibernética tradicional e evoluiu no uso comum para descrever muitos tipos de investigação, teste e ataque de sistemas de IA. Com os LLMs, tanto o uso benigno quanto o uso adversário podem produzir resultados potencialmente prejudiciais, que podem assumir muitas formas, incluindo conteúdos nocivos, como discurso de ódio, incitação ou glorificação da violência, referência a conteúdos relacionados à automutilação ou conteúdos sexuais.

Funcionalidades

Comportamento do sistema

O Azure AI Foundry provisiona um modelo GPT-4 do OpenAI do Azure e orquestra ataques adversários contra seu aplicativo para gerar um conjunto de dados de teste de alta qualidade. Em seguida, ele provisiona outro modelo GPT-4 para anotar o conjunto de dados de teste quanto a conteúdos e segurança. Os usuários fornecem o ponto de extremidade do aplicativo de IA generativa que desejam testar e as avaliações de segurança produzem um conjunto de dados de teste estático nesse ponto de extremidade, além do rótulo de risco de conteúdo (muito baixo, baixo, médio, alto) e do raciocínio para o rótulo gerado por IA.

Casos de uso

Usos previstos

As avaliações de segurança não se destinam a finalidades diferentes da avaliação de riscos de conteúdo e vulnerabilidades de jailbreak no aplicativo de IA generativa:

  • Avaliando seu aplicativo de IA gerativa antes da implantação: Usando o assistente de avaliação no portal Azure AI Foundry ou o SDK do Python de IA do Azure, as avaliações de segurança podem avaliar de forma automatizada para avaliar possíveis riscos de conteúdo ou segurança.
  • Ampliar suas operações de equipe vermelha: usando o simulador adversário, as avaliações de segurança podem simular interações adversárias com o aplicativo de IA generativa para tentar descobrir riscos de conteúdo e de segurança.
  • Comunicando riscos de conteúdo e segurança para os stakeholders: Usando o portal do Azure AI Foundry, você pode compartilhar o acesso ao seu projeto Azure AI Foundry com os resultados das avaliações de segurança com auditores ou stakeholders em conformidade.

Considerações ao escolher um caso de uso

Incentivamos os clientes a aproveitar as avaliações de segurança do Azure AI Foundry em suas soluções ou aplicativos inovadores. No entanto, aqui estão algumas considerações ao escolher um caso de uso:

  • As avaliações de segurança devem incluir humanos no processo: O uso de avaliações automatizadas como as avaliações de segurança do Azure AI Foundry deve incluir revisores humanos, como especialistas no domínio, para avaliar se seu aplicativo de IA gerativa foi testado minuciosamente antes da implantação para os usuários finais.
  • As avaliações de segurança não incluem cobertura total e abrangente: Embora as avaliações de segurança possam fornecer uma maneira de aumentar seus testes para possíveis riscos de conteúdo ou segurança, não foi projetada para substituir operações de equipes vermelhas manuais especificamente voltadas para o domínio do seu aplicativo, casos de uso e tipo de usuários finais.
  • Cenários com suporte:
    • Para simulação adversária: respostas às perguntas, chat de vários turnos, resumo, pesquisa, reescrita de texto e geração de conteúdos fundamentados e não fundamentados.
    • Para anotações automatizadas: respostas às perguntas e chat de vários turnos.
  • No momento, o serviço é melhor usado em inglês no caso de gerações textuais. Recursos adicionais, como suporte a vários modelos, serão considerados em versões futuras.
  • A cobertura dos riscos de conteúdo fornecida nas avaliações de segurança é subamostrada com base em um número limitado de tópicos e grupos marginalizados:
    • A métrica de ódio e injustiça inclui uma pequena cobertura para um número limitado de grupos marginalizados com relação ao fator demográfico de gênero (por exemplo, homens, mulheres, pessoas não binárias) e raça, ancestralidade, etnia e nacionalidade (por exemplo, negro, mexicano, europeu). Nem todos os grupos marginalizados em termos de gênero e raça, ancestralidade, etnia e nacionalidade são cobertos. No momento, outros fatores demográficos relacionados a ódio e injustiça não têm cobertura (por exemplo, deficiência, sexualidade, religião).
    • As métricas para conteúdos sexuais, violentos e relacionados à automutilação baseiam-se em uma conceitualização preliminar desses danos que é menos desenvolvida do que o ódio e a injustiça. Isso significa que podemos fazer declarações menos fortes sobre a cobertura da medida e o nível de representação dela com relação as diferentes maneiras pelas quais esses danos podem ocorrer. A cobertura desses tipos de conteúdo inclui um número limitado de tópicos relacionados a sexo (por exemplo, violência sexual, relações, atos sexuais), violência (por exemplo, abuso, ferir outras pessoas, sequestro) e automutilação (por exemplo, morte intencional, automutilação intencional, distúrbios alimentares).
  • As avaliações de segurança do Azure AI Foundry atualmente não permitem plug-ins ou extensibilidade.
  • Para manter a qualidade atualizada e melhorar a cobertura, buscaremos uma cadência de futuras versões de aprimoramento das funcionalidades de anotação e simulação adversarial do serviço.

Limitações técnicas, fatores operacionais e alcance

  • O campo dos LLMs (modelos de linguagem grandes) continua evoluindo em um ritmo rápido, exigindo melhoria contínua das técnicas de avaliação para garantir a implantação segura e confiável do sistema de IA. As avaliações de segurança do Azure AI Foundry refletem o compromisso da Microsoft em continuar inovando no campo da avaliação de LLM. Nosso objetivo é fornecer as melhores ferramentas para ajudar você a avaliar a segurança de aplicativos de IA generativa, mas reconhecemos que uma avaliação eficaz é resultado de um trabalho contínuo.
  • A personalização das avaliações de segurança do Azure AI Foundry é atualmente limitada. Esperamos que os usuários forneçam apenas o ponto de extremidade do aplicativo de IA generativa de entrada e nosso serviço produzirá um conjunto de dados estático rotulado para risco de conteúdo.
  • Por fim, é importante observar que esse sistema não automatiza nenhuma ação ou tarefa, mas fornece apenas uma avaliação das saídas do aplicativo de IA generativa, que devem ser revisadas por uma pessoa responsável pela tomada de decisão antes da implantação do sistema ou do aplicativo de IA generativa em produção para os usuários finais.

Desempenho do sistema

Melhores práticas para melhorar o desempenho do sistema

  • Ao considerar seu domínio, que pode tratar alguns conteúdos com mais sensibilidade do que outros, é importante ajustar o limite para calcular a taxa de defeitos.
  • Ao usar as avaliações de segurança automatizadas, às vezes pode haver um erro nos rótulos gerados pela IA quanto à severidade de um risco de conteúdo ou o raciocínio usado. Há uma coluna manual de comentários para permitir a validação humana dos resultados da avaliação de segurança automatizada.

Avaliação das avaliações de segurança do Azure AI Foundry

Métodos de avaliação

Para todos os tipos de risco de conteúdo com suporte, verificamos internamente a qualidade comparando a taxa de correspondências aproximadas entre os rotuladores humanos usando uma escala de gravidade de 0 a 7 e o anotador automatizado das avaliações de segurança também usando uma escala de gravidade de 0 a 7 nos mesmos conjuntos de dados. Para cada área de risco, utilizamos rotuladores humanos e um anotador automatizado que rotularam 500 textos em inglês de turno único. Os rotuladores humanos e o anotador automatizado não usaram exatamente as mesmas versões das diretrizes de anotação; enquanto as diretrizes do anotador automatizado se originaram das diretrizes para humanos, elas divergiram em graus variados (com as diretrizes de ódio e injustiça divergindo mais). Apesar dessas diferenças ligeiras a moderadas, acreditamos que ainda é útil compartilhar tendências gerais e insights da nossa comparação de correspondências aproximadas. Em nossas comparações, procuramos correspondências com tolerância de dois níveis (em que o rótulo humano correspondia exatamente ao rótulo do anotador automatizado ou estava dentro de dois níveis acima ou abaixo em severidade), correspondências com tolerância de um nível e correspondências com tolerância de nível 0.

Resultados de avaliação

No geral, observamos uma alta taxa de correspondências aproximadas entre os riscos de automutilação e de conteúdo sexual em todos os níveis de tolerância. Para violência e para ódio e injustiça, a taxa de correspondência aproximada entre os níveis de tolerância foi mais baixa. Esses resultados foram, em parte, devido ao aumento da divergência no conteúdo das diretrizes de anotação para os rotuladores humanos em comparação com os anotadores automatizados e, em parte, devido ao aumento da quantidade de conteúdo e complexidade em diretrizes específicas.

Embora nossas comparações sejam entre entidades que usaram diretrizes de anotação ligeiramente a moderadamente diferentes (e, portanto, não são comparações padrão do contrato de modelo humano), essas comparações fornecem uma estimativa da qualidade que podemos esperar das avaliações de segurança do Azure AI Foundry, dados os parâmetros dessas comparações. Especificamente, como analisamos apenas exemplos em inglês, nossas descobertas podem não ser generalizadas para outros idiomas. Além disso, cada exemplo de conjunto de dados consistia em apenas um único turno e, portanto, mais experimentos são necessários para verificar a generalização de nossas descobertas de avaliação para cenários de vários turnos (por exemplo, uma conversa de dois turnos, incluindo consultas de usuários e respostas do sistema). Os tipos de exemplos usados nesses conjuntos de dados de avaliação também podem afetar muito a taxa de correspondência aproximada entre rótulos humanos e um anotador automatizado. Se os exemplos forem mais fáceis de rotular (por exemplo, se todos estiverem livres de riscos de conteúdo), será possível esperar que a taxa de correspondência aproximada seja maior. A qualidade dos rótulos humanos para uma avaliação também pode afetar a generalização dos resultados.

Avaliando e integrando as avaliações de segurança do Azure AI Foundry para seu uso

A medida e a avaliação do aplicativo de IA generativa são uma parte crítica de uma abordagem abrangente para o gerenciamento de riscos de IA. As avaliações de segurança do Azure AI Foundry são complementares e devem ser usadas em conjunto com outras práticas de gerenciamento de riscos de IA. Especialistas de domínio e revisores humanos devem fornecer supervisão adequada ao usar avaliações de segurança assistidas por IA no ciclo de design, desenvolvimento e implantação de aplicativos de IA generativa. Você deve entender as limitações e os usos pretendidos das avaliações de segurança, sendo cuidadoso para não confiar isoladamente nos resultados produzidos pelas avaliações de segurança assistidas por IA do Azure AI Foundry.

Devido à natureza não determinística dos LLMs, você pode experimentar resultados falsos negativos ou positivos, como um nível de gravidade alto de conteúdo violento classificado como "muito baixo" ou "baixo." Além disso, os resultados da avaliação podem ter significados diferentes para públicos diferentes. Por exemplo, as avaliações de segurança podem gerar um rótulo para "baixa" gravidade de conteúdo violento que pode não se alinhar com a definição de um revisor humano de quão grave esse conteúdo violento específico pode ser. No portal do Azure AI Foundry, fornecemos uma coluna de comentários humanos com polegares para cima e para baixo ao visualizar seus resultados de avaliação para destacar quais instâncias foram aprovadas ou marcadas como incorretas por um revisor humano. Considere o contexto em que os resultados podem ser interpretados para a tomada de decisões por outras pessoas com quem a avaliação seja compartilhada e valide os resultados da avaliação com o nível apropriado de escrutínio de acordo com o nível de risco no ambiente em que cada aplicativo de IA generativa opera.

Saiba mais sobre IA responsável

Saiba mais sobre as avaliações de segurança do Azure AI Foundry