Directivas de seguridad de contenido predeterminadas para la inferencia del modelo de Azure AI

Artículo
01/28/2025

La inferencia del modelo de Azure AI incluye la seguridad predeterminada aplicada a todos los modelos, excepto Azure OpenAI Whisper. Estas configuraciones proporcionan una experiencia responsable de forma predeterminada.

La seguridad predeterminada tiene como objetivo mitigar riesgos como el odio y la imparcialidad, sexual, violencia, autolesión, contenido material protegido y ataques por inyección de mensajes de usuario. Para obtener más información sobre el filtrado de contenido, lea nuestra documentación que describe las categorías y los niveles de gravedad.

En este documento se describe la configuración predeterminada.

Sugerencia

De forma predeterminada, todas las implementaciones de modelos usan la configuración predeterminada. Sin embargo, puede configurar el filtrado de contenido por implementación de modelos, como se explica en Configuración del filtrado de contenido.

Modelos de texto

Los modelos de texto de la inferencia del modelo de Azure AI pueden tomar y generar texto y código. Estos modelos aplican los modelos de filtrado de contenido de texto de Azure para detectar y evitar contenido dañino. Este sistema funciona tanto en las indicaciones como en la finalización.

Categoría de riesgo	Solicitud o finalización	Umbral de gravedad
Odio y equidad	Indicaciones y finalizaciones	Media
Violencia	Indicaciones y finalizaciones	Media
Sexual	Indicaciones y finalizaciones	Media
Autolesiones	Indicaciones y finalizaciones	Media
Ataque por inyección de indicaciones de usuario (liberar)	Mensajes	N/D
Material protegido: texto	Finalizaciones	N/D
Material protegido: código	Finalizaciones	N/D

Visión y chat con modelos de visión

Los modelos de visión pueden tomar texto e imágenes al mismo tiempo como parte de la entrada. Las funcionalidades de filtrado de contenido predeterminadas varían según el modelo y el proveedor.

Azure OpenAI: GPT-4o y GPT-4 Turbo

Categoría de riesgo	Solicitud o finalización	Umbral de gravedad
Odio y equidad	Indicaciones y finalizaciones	Media
Violencia	Indicaciones y finalizaciones	Media
Sexual	Indicaciones y finalizaciones	Media
Autolesiones	Indicaciones y finalizaciones	Media
Identificación de individuos e inferencia de atributos confidenciales	Mensajes	N/D
Ataque por inyección de indicaciones de usuario (liberar)	Mensajes	N/D

Azure OpenAI: DALL-E 3 y DALL-E 2

Categoría de riesgo	Solicitud o finalización	Umbral de gravedad
Odio y equidad	Indicaciones y finalizaciones	Bajo
Violencia	Indicaciones y finalizaciones	Bajo
Sexual	Indicaciones y finalizaciones	Bajo
Autolesiones	Indicaciones y finalizaciones	Bajo
Credenciales de contenido	Finalizaciones	N/D
Generación engañosa de candidatos políticos	Mensajes	N/D
Representaciones de figuras públicas	Mensajes	N/D
Ataque por inyección de indicaciones de usuario (liberar)	Mensajes	N/D
Material protegido: personajes de Arte y Estudios	Mensajes	N/D
Palabras soeces	Mensajes	N/D

Además de las configuraciones de seguridad anteriores, Azure OpenAI DALL-E también incluye la transformación de indicaciones de forma predeterminada. Esta transformación se produce en todas las indicaciones para mejorar la seguridad de su indicación original, específicamente en las categorías de riesgo de diversidad, generación engañosa de candidatos políticos, representaciones de figuras públicas, material protegido y otros.

Meta: Llama-3.2-11B-Vision-Instruct y Llama-3.2-90B-Vision-Instruct

Los filtros de contenido solo se aplican a solicitudes de texto y finalizaciones. Las imágenes no están sujetas a moderación de contenido.

Microsoft: Phi-3.5-vision-instruct

Los filtros de contenido solo se aplican a solicitudes de texto y finalizaciones. Las imágenes no están sujetas a moderación de contenido.

Pasos siguientes

Configuración de filtros de contenido en la inferencia del modelo de Azure AI

Compartir a través de