傷害類別和嚴重性層級

服務套用的每個傷害類別也會隨附嚴重性等級評等。嚴重性層級旨在指出顯示標記內容結果的嚴重性。文字和影像內容都使用同一組旗標。

傷害類別

類別	說明
仇恨和公平性	仇恨和公平性相關的傷害是指根據特定區分屬性攻擊或使用貶低或歧視性語言指稱個人或身分群體的任何內容。這些屬性包括但不限於：種族、民族、國籍、性別認同和表達、性取向、宗教、移民身份、能力地位、個人外觀以及身材尺寸。公平性涉及確保 AI 系統公平對待所有群體，而不會加劇現有的社會不公平現象。就像仇恨言論一樣，公平性相關傷害取決於對身分群體的不同對待。
兩性	性意指與解剖學上器官和生殖器，曖昧關係，行為描繪為色情或親密用語，懷孕，身體性行為相關的語言。其中也包括那些被描繪為違反個人意願的攻擊或強迫性暴力行為、賣淫、色情和虐待的行為。
暴力	暴力意指與旨在傷害、損傷、損害或殺害某人或某物之身體行動相關的語言。其中也包括描述武器、槍枝和相關實體的語言，例如製造商、協會、立法等。
自殘	自殘描述與故意危害、傷害、損害自我身體或自殺的身體行動相關語言。

分類可以為多標籤的。例如，當文字範例通過文字調節模型時，可以同時分類為色情內容和暴力內容。

服務套用的每個傷害類別也會隨附嚴重性等級評等。嚴重性層級旨在指出顯示標記內容結果的嚴重性。嚴重性級數範圍是 0-7。文字模型同時支援完整 0-7 和 0、2、4 和 6 的精簡級數。影像模型的目前版本僅支援精簡級數。

若要深入了解嚴重性定義，請參閱 aka.ms/severity-levels。