Como funciona a Segurança de Conteúdo do Azure AI?

Concluído

A Segurança de Conteúdo da IA do Azure funciona com texto e imagens e conteúdo gerado por IA.

Os recursos de visão de segurança de conteúdo são alimentados pelo modelo básico de Florença da Microsoft, que foi treinado com bilhões de pares de texto e imagem. A análise de texto utiliza técnicas de processamento de linguagem natural, proporcionando uma melhor compreensão das nuances e do contexto. A Segurança de Conteúdo da IA do Azure é multilíngue e pode detetar conteúdo prejudicial em formato curto e longo. Atualmente está disponível em inglês, alemão, espanhol, francês, português, italiano e chinês.

O Azure AI Content Safety classifica o conteúdo em quatro categorias:

Diagrama das quatro categorias em que o Azure AI Content Safety classifica o conteúdo.

Um nível de severidade para cada categoria é usado para determinar se o conteúdo deve ser bloqueado, enviado a um moderador ou aprovado automaticamente.

Os recursos de Segurança de Conteúdo do Azure AI incluem:

Salvaguardar o conteúdo do texto

  • O texto moderado verifica o texto em quatro categorias: violência, discurso de ódio, conteúdo sexual e automutilação. Um nível de gravidade de 0 a 6 é retornado para cada categoria. Este nível ajuda a priorizar o que precisa de atenção imediata por parte das pessoas, e quão urgentemente. Você também pode criar uma lista de bloqueio para procurar termos específicos para sua situação.

  • Prompt shields é uma API unificada para identificar e bloquear ataques de jailbreak de entradas para LLMs. Inclui a entrada do usuário e documentos. Esses ataques são prompts para LLMs que tentam contornar os recursos de segurança embutidos do modelo. Os prompts do usuário são testados para garantir que a entrada para o LLM seja segura. Os documentos são testados para garantir que não contêm instruções inseguras incorporadas no texto.

  • A deteção de material protegido verifica o texto gerado por IA em busca de texto protegido, como receitas, letras de músicas protegidas por direitos autorais ou outro material original.

  • A deteção de aterramento protege contra respostas imprecisas em texto gerado por IA por LLMs. Os LLMs públicos usam dados disponíveis no momento em que foram treinados. No entanto, os dados podem ser introduzidos após o treinamento original do modelo ou ser construídos com base em dados privados. Uma resposta fundamentada é aquela em que a saída do modelo é baseada na informação de origem. Uma resposta sem fundamento é aquela em que a saída do modelo varia da informação de origem. A deteção de aterramento inclui uma opção de raciocínio na resposta da API. Isso adiciona um campo de raciocínio que explica qualquer deteção de infundamento. No entanto, o raciocínio aumenta o tempo e os custos de processamento.

Salvaguardar o conteúdo da imagem

  • As imagens moderadas verificam se há conteúdo impróprio em quatro categorias: violência, automutilação, sexual e ódio. Um nível de gravidade é retornado: seguro, baixo ou alto. Em seguida, defina um nível de limite de baixo, médio ou alto. A combinação da gravidade e do nível de limite determina se a imagem é permitida ou bloqueada para cada categoria.

  • O conteúdo multimodal moderado verifica imagens e texto, incluindo texto extraído de uma imagem usando reconhecimento ótico de caracteres (OCR). O conteúdo é analisado em quatro categorias: violência, discurso de ódio, conteúdo sexual e automutilação.

Soluções de segurança personalizadas

  • As categorias personalizadas permitem que você crie suas próprias categorias, fornecendo exemplos positivos e negativos e treinando o modelo. O conteúdo pode então ser digitalizado de acordo com as suas próprias definições de categoria.

  • A mensagem do sistema de segurança ajuda você a escrever prompts eficazes para orientar o comportamento de um sistema de IA.

Limitações

A Segurança de Conteúdo da IA do Azure usa algoritmos de IA e, portanto, nem sempre pode detetar linguagem inadequada. E, em algumas ocasiões, pode bloquear linguagem aceitável porque depende de algoritmos e aprendizado de máquina para detetar linguagem problemática.

O Azure AI Content Safety deve ser testado e avaliado em dados reais antes de ser implantado. E uma vez implantado, você deve continuar a monitorar o sistema para ver com que precisão ele está funcionando.

Avaliação da precisão

Ao avaliar com que precisão a Segurança de Conteúdo do Azure AI é para sua situação, compare seu desempenho com quatro critérios:

  • Verdadeiro positivo - identificação correta de conteúdo nocivo.
  • Falso positivo - identificação incorreta de conteúdo nocivo.
  • Verdadeiro negativo - identificação correta de conteúdo inofensivo.
  • Falso negativo - o conteúdo prejudicial não é identificado.

A Segurança de Conteúdo da IA do Azure funciona melhor para dar suporte a moderadores humanos que podem resolver casos de identificação incorreta. Quando as pessoas adicionam conteúdo a um site, não esperam que as publicações sejam removidas sem motivo. A comunicação com os usuários sobre por que o conteúdo é removido ou sinalizado como inadequado ajuda todos a entender o que é permitido e o que não é.