피해 범주 및 심각도 수준

3분

서비스가 적용되는 모든 피해 범주에는 심각도 수준 등급도 함께 제공됩니다. 심각도 수준은 플래그가 지정된 콘텐츠 표시로 인한 결과의 심각도를 나타냅니다. 텍스트와 이미지 콘텐츠 모두 동일한 플래그 집합을 사용합니다.

유해 범주

범주	설명
증오와 공정성	증오 및 공정성 관련 해악은 구별되는 특성을 기반으로 개인 또는 정체성 집단을 공격하거나 비하하고 차별하는 언어를 사용하는 모든 콘텐츠를 지칭합니다. 이러한 특성에는 인종, 민족, 국적, 성 정체성 및 표현, 성적 지향성, 종교, 이민 신분, 능력 상태, 개인 외모 및 신체 크기가 포함되며 이에 국한되지 않습니다. 공정성은 AI 시스템이 기존의 사회적 불평등에 기여하지 않고 모든 그룹의 사람들을 공평하게 대우하도록 하는 데 관심이 있습니다. 혐오 발언과 마찬가지로 공정성과 관련된 피해는 정체성 그룹의 이질적인 대우에 달려 있습니다.
성적	성적이라는 말은 해부학적 기관과 생식기, 로맨틱한 관계, 성적 용어나 사랑과 관련된 용어로 묘사된 행위, 임신, 신체적 성행위와 관련된 언어를 말합니다. 또한 폭력적이거나 의지에 반하는 강제적인 성폭력, 매춘, 음란물, 성폭행으로 묘사되는 언어를 포함합니다.
폭력	폭력은 사람 또는 사물에 해를 입히거나, 상처를 주거나, 피해를 주거나, 죽이는 물리적 행동과 관련된 언어를 말합니다. 또한 무기와 총기는 물론, 제조업체, 협회, 법률 등과 같은 관련 엔터티를 설명하는 언어도 포함됩니다.
자해	자해란 의도적으로 자신의 신체를 다치게 하거나 손상시키거나 자살하려는 의도를 지닌 신체적 행동과 관련된 언어를 말합니다.

분류에는 다중 레이블이 지정될 수 있습니다. 예를 들어 텍스트 샘플이 텍스트 조정 모델을 거치면 성적인 콘텐츠와 폭력으로 분류될 수 있습니다.

심각도 수준

서비스가 적용되는 모든 피해 범주에는 심각도 수준 등급도 함께 제공됩니다. 심각도 수준은 플래그가 지정된 콘텐츠 표시로 인한 결과의 심각도를 나타냅니다. 심각도 배율 범위는 0~7입니다. 텍스트 모델은 전체 0~7과 0, 2, 4, 6의 트리밍된 배율을 모두 지원합니다. 이미지 모델의 현재 버전은 트리밍된 배율만 지원합니다.

심각도 정의에 대한 자세한 내용은 aka.ms/severity-levels를 참조하세요.

피해 범주 및 심각도 수준

유해 범주

심각도 수준

피드백