Categorías de daños y niveles de gravedad
Cada categoría de daño que el servicio aplica también incluye una clasificación de nivel de gravedad. El nivel de gravedad está pensado para indicar la gravedad de las consecuencias de mostrar el contenido marcado. Tanto el contenido de texto como de imagen usan el mismo conjunto de marcas.
Categorías de daños
Categoría | Descripción |
---|---|
Odio y equidad | Los daños relacionados con el odio y la equidad hacen referencia a cualquier contenido que ataque o use lenguaje peyorativo o discriminatorio con referencia a una persona o grupo de identidades basado en ciertos atributos diferenciadores. Estos atributos incluyen, entre otros: raza, etnia, nacionalidad, identidad y expresión de género, orientación sexual, religión, estado de inmigración, estado de capacidad, apariencia personal y tamaño corporal. La equidad consiste en garantizar que los sistemas de inteligencia artificial traten a todos los grupos de personas de forma equitativa sin contribuir a las desigualdades sociales existentes. Al igual que el discurso de odio, los daños relacionados con la imparcialidad dependen del tratamiento dispar de los grupos de identidades. |
Sexual | Sexual describe el lenguaje relacionado con órganos anatómicos y genitales, relaciones románticas, actos representados en términos eróticos o cariñosos, embarazo o actos sexuales físicos. También incluye esos actos representados como un ataque o un acto violento sexual forzado contra la voluntad de uno, la prostitución, la pornografía y el abuso. |
Violencia | La violencia describe el lenguaje relacionado con acciones físicas destinadas a herir, dañar o matar a alguien o algo. También incluye lenguaje que describe armas, pistolas y entidades relacionadas, como fabricantes, asociaciones, legislación, etc. |
Daño autoinfligido | Autolesión describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar o dañar intencionadamente su propio cuerpo o a suicidarse. |
La clasificación puede tener varias etiquetas. Por ejemplo, cuando una muestra de texto pasa a través del modelo de moderación de textos, podría clasificarse como contenido sexual y violencia.
Niveles de gravedad
Cada categoría de daño que el servicio aplica también incluye una clasificación de nivel de gravedad. El nivel de gravedad está pensado para indicar la gravedad de las consecuencias de mostrar el contenido marcado. La escala de gravedad oscila entre 0 y 7. El modelo de texto admite tanto el 0-7 completo como la escala recortada de 0, 2, 4 y 6. La versión actual del modelo de imagen solo admite la escala recortada.
Para obtener más información sobre las definiciones de gravedad, consulte aka.ms/severity-levels.