Segurança de conteúdo para modelos selecionados pela IA do Azure no catálogo de modelos
Importante
Os itens marcados (visualização) neste artigo estão atualmente em visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.
Neste artigo, saiba mais sobre os recursos de segurança de conteúdo para modelos do catálogo de modelos implantados usando APIs sem servidor.
Padrões de filtro de conteúdo
A IA do Azure usa uma configuração padrão dos filtros de conteúdo do Azure AI Content Safety para detetar conteúdo prejudicial em quatro categorias, incluindo ódio e justiça, automutilação, sexual e violência para modelos implantados por meio de APIs sem servidor. Para saber mais sobre filtragem de conteúdo (visualização), consulte Compreender categorias de danos.
A configuração de filtragem de conteúdo padrão para modelos de texto é definida para filtrar no limite de gravidade média, filtrando qualquer conteúdo detetado nesse nível ou superior. Para modelos de imagem, a configuração de filtragem de conteúdo padrão é definida no limite de configuração baixo, filtrando nesse nível ou superior. Para modelos implantados usando o serviço de inferência de modelo de IA do Azure, você pode criar filtros configuráveis selecionando a guia Filtros de conteúdo na página Segurança + proteção do portal do Azure AI Foundry.
Gorjeta
A filtragem de conteúdo (visualização) não está disponível para determinados tipos de modelo implantados por meio de APIs sem servidor. Esses tipos de modelo incluem modelos de incorporação e modelos de séries temporais.
A filtragem de conteúdo (visualização) ocorre de forma síncrona à medida que o serviço processa prompts para gerar conteúdo. Você pode ser cobrado separadamente de acordo com os preços do Azure AI Content Safety para esse uso. Você pode desativar a filtragem de conteúdo (visualização) para pontos de extremidade sem servidor individuais:
- Quando você implanta um modelo de idioma pela primeira vez
- Mais tarde, selecionando a opção de filtragem de conteúdo na página de detalhes da implantação
Suponha que você decida usar uma API diferente da API de Inferência de Modelo de IA do Azure para trabalhar com um modelo implantado por meio de uma API sem servidor. Nessa situação, a filtragem de conteúdo (visualização) não é habilitada, a menos que você a implemente separadamente usando o Azure AI Content Safety. Para começar a usar o Azure AI Content Safety, consulte Guia de início rápido: analisar conteúdo de texto. Você corre um risco maior de expor os usuários a conteúdo prejudicial se não usar a filtragem de conteúdo (visualização) ao trabalhar com modelos implantados por meio de APIs sem servidor.
Compreender as categorias de danos
Categorias de danos
Categoria | Description | Termo da API |
---|---|---|
Ódio e justiça | Os danos de ódio e equidade referem-se a qualquer conteúdo que ataque ou use linguagem discriminatória com referência a uma pessoa ou grupo de identidade com base em certos atributos diferenciadores desses grupos. Estas medidas incluem, entre outras:
|
Hate |
Sexual | Sexual descreve linguagem relacionada a órgãos anatômicos e genitais, relacionamentos românticos e atos sexuais, atos retratados em termos eróticos ou afetuosos, incluindo aqueles retratados como uma agressão ou um ato sexual violento forçado contra a vontade. Isso inclui, mas não está limitado a:
|
Sexual |
Violência | A violência descreve a linguagem relacionada a ações físicas destinadas a ferir, ferir, danificar ou matar alguém ou algo; descreve armas, armas e entidades relacionadas. Isso inclui, mas não está limitado a:
|
Violence |
Automutilação | A automutilação descreve a linguagem relacionada com ações físicas destinadas a ferir, ferir, danificar o corpo ou matar-se propositadamente. Isso inclui, mas não está limitado a:
|
SelfHarm |
Níveis de severidade
Level | Description |
---|---|
Safe | O conteúdo pode estar relacionado a categorias de violência, automutilação, sexual ou ódio. No entanto, os termos são usados em contextos profissionais gerais, jornalísticos, científicos, médicos e similares, que são apropriados para a maioria dos públicos. |
Baixo | Conteúdo que expressa opiniões preconceituosas, preconceituosas ou opinativas, inclui uso ofensivo de linguagem, estereótipos, casos de uso explorando um mundo fictício (por exemplo, jogos, literatura) e representações em baixa intensidade. |
Médio | O conteúdo que usa linguagem ofensiva, insultuosa, zombeteira, intimidadora ou humilhante em relação a grupos de identidade específicos, inclui representações de busca e execução de instruções prejudiciais, fantasias, glorificação, promoção de danos em intensidade média. |
Alto | Conteúdo que exiba instruções, ações, danos ou abuso prejudiciais explícitos e graves; inclui endosso, glorificação ou promoção de atos prejudiciais graves, formas extremas ou ilegais de dano, radicalização ou troca ou abuso de poder não consensual. |
Como são calculados os encargos
Os detalhes de preços podem ser visualizados nos preços do Azure AI Content Safety. As cobranças são incorridas quando o Azure AI Content Safety valida o prompt ou a conclusão. Se o Azure AI Content Safety bloquear o prompt ou a conclusão, você será cobrado pela avaliação do conteúdo e pelas chamadas de inferência.