Модерация безопасности содержимого с помощью среды выполнения Windows Copilot

Статья
02/07/2025

Важный

Доступно в последнем экспериментальном канале выпуске пакета SDK для приложений Windows.

Экспериментальный канал пакета SDK для приложений Windows включает API и функции на ранних этапах разработки. Все API-интерфейсы в экспериментальном канале подвергаются обширным исправлениям и критическим изменениям и могут быть удалены из последующих выпусков в любое время. Экспериментальные функции не поддерживаются для использования в рабочих средах и приложениях, которые используют их, не могут быть опубликованы в Microsoft Store.

API среды выполнения Windows Copilot, такие как API Phi Silica или API визуализации, реализуют модерацию текстового содержимого для классификации и фильтрации потенциально вредоносного содержимого, чтобы предотвратить его запрос или возврат этими генеративными моделями. API отфильтрует содержимое, классифицируемые как потенциально вредное по умолчанию, однако разработчики могут настроить различные уровни конфиденциальности.

Необходимые условия

ДЛЯ API среды выполнения Windows Copilot требуется компьютер Copilot+ с чипом Qualcomm.
- Arm64EC (совместимая с эмуляцией) в настоящее время не поддерживается.
windows 11 Insider Preview Build 26120.3073 (каналы разработки и бета-версии) или более поздней версии должны быть установлены на устройстве.

Модерация текстового содержимого

Вы можете настроить модерацию содержимого в вводном запросе на созданную модель и выходные данные искусственного интеллекта. Модерация содержимого API среды выполнения Windows Copilot разработана и реализована аналогично модерации, предоставляемой Azure AI Content Safety.

Категории вреда

Категории вреда соответствуют определениям, используемым в решении "Безопасность содержимого ИИ Azure", и могут быть найдены в рекомендациях по безопасности содержимого ИИ Azure. Категории вреда включают в себя: ненависть и справедливость, сексуальное содержимое, насилие или самовредение, и может включать несколько меток на одном и том же контенте.

Эти четыре категории классифицируют потенциально вредное содержимое, что позволяет настраивать фильтры конфиденциальности.

Категория	Описание	Имя API
Ненависть	Ненависть и вред относятся к любому содержимому, которое атакует или использует дискриминационный язык по отношению к человеку или идентификационной группе на основе определенных характеристик этих групп.	`HateContentSeverity`
Половой	Сексуальный описывает язык, связанный с анатомическими органами и гениталиями, романтическими отношениями и сексуальными актами, действия, изображаемые в эротических или ласковых терминах, в том числе те, которые изображаются как нападение или принудительный сексуальный насильственный акт против воли человека.	`SexualContentSeverity`
Насилие	Насилие описывает терминологию, связанную с физическими действиями, предназначенными для того, чтобы ранить или убить кого-либо или что-либо; описывает оружие, пистолеты и связанные с ними объекты.	`ViolentContentSeverity`
Самоповредение	Самоповреждение описывает речь о физических действиях, направленных на намеренное причинение боли, травмы, повреждения тела или суицида.	`SelfHarmContentSeverity`

Уровни серьезности

По умолчанию все вызовы API генеративных служб Windows Copilot Runtime используют модерацию содержимого, но уровень строгости можно настроить.

high: недоступно. Содержимое, классифицируемое как имеющее уровень риска 3+ (высокий риск для потенциального вреда), в настоящее время блокируется генеративной моделью искусственного интеллекта от возвращения.
medium: для уровня серьезности по умолчанию задано значение medium. Содержимое, классифицированное как уровень серьезности 0 – 3, будет возвращено.
low: снижает риск возврата потенциально вредного содержимого дальше. Возвращается только содержимое, классифицированное как уровень серьезности 0 – 1.

Дополнительные сведения о уровнях серьезности см. в статье категории безопасности содержимого ИИ Azure.

Пример кода модерации текста

Чтобы настроить фильтры жесткости модерации текстового контента, встроенные в среду выполнения Windows Copilot, необходимо передать структуру ContentFilterOptions как параметр в API, используемый для генерации ответов, например, API Phi Silica .

В следующем примере кода показано добавление фильтров серьезности модерации текстового содержимого в LanguageModelMicrosoft Windows Generative AI:

var languageModelOptions = new LanguageModelOptions {
    Temp =  0.9f,
    Top_p = 0.9f, 
    Top_k = 40
};

var promptMinSeverityLevelToBlock = new TextContentFilterSeverity {
    HateContentSeverity = SeverityLevel.Low,
    SexualContentSeverity = SeverityLevel.Low,
    ViolentContentSeverity = SeverityLevel.Medium,
    SelfHarmContentSeverity = SeverityLevel.Low
};

var responseMinSeverityLevelToBlock = new TextContentFilterSeverity {
    HateContentSeverity = SeverityLevel.Low,
    SexualContentSeverity = SeverityLevel.Low,
    ViolentContentSeverity = SeverityLevel.Low,
    SelfHarmContentSeverity = SeverityLevel.Medium
};

var contentFilterOptions = new ContentFilterOptions {
    PromptMinSeverityLevelToBlock = promptMinSeverityLevelToBlock,
    ResponseMinSeverityLevelToBlock = responseMinSeverityLevelToBlock
};

IProgress<string> progress;
var languageModelResponseWithProgress = model.GenerateResponseWithProgressAsync(languageModelOptions, prompt, contentFilterOptions);
languageModelRepsonseWithProgress.Progress = (_, generationProgress) =>
{
    progress.Report(generationProgress);
};
string response = (await languageModelResponseWithProgress).Response;

Поделиться через

Модерация безопасности содержимого с помощью среды выполнения Windows Copilot

Необходимые условия

Модерация текстового содержимого

Категории вреда

Уровни серьезности

Пример кода модерации текста

Обратная связь

Дополнительные ресурсы

Поделиться через

Модерация безопасности содержимого с помощью среды выполнения Windows Copilot

Необходимые условия

Модерация текстового содержимого

Категории вреда

Уровни серьезности

Пример кода модерации текста

Связанное содержимое

Обратная связь

Дополнительные ресурсы