Устранение потенциальных причинений вреда

5 мин

После определения базового плана и способа измерения вредных выходных данных, создаваемых решением, можно предпринять шаги по устранению потенциальных рисков, а также при необходимости повторного тестирования измененной системы и сравнения уровней вреда с базовыми показателями.

Устранение потенциальных рисков в решении сгенерируемым искусственным интеллектом включает в себя многоуровневый подход, в котором методы устранения рисков можно применять на каждом из четырех уровней, как показано ниже.

Схема, показывающая модель, систему безопасности, приложение и размещение слоев создаваемого решения искусственного интеллекта.

Модель
система Сейф ty
Метапроимпт и заземление
Возможности для пользователя

1. Уровень модели

Уровень модели состоит из одной или нескольких моделей сгенерированных ИИ в центре решения. Например, решение может быть создано вокруг модели, например GPT-4.

Ниже приведены способы устранения рисков, которые можно применить на уровне модели:

Выбор модели, подходящей для предполагаемого использования решения. Например, хотя GPT-4 может быть мощной и универсальной моделью, в решении, которое требуется только для классификации небольших, конкретных текстовых входных данных, более простая модель может обеспечить необходимые функциональные возможности с меньшим риском создания вредного контента.
Настройка базовой модели с собственными данными обучения, чтобы ответы, создаваемые им, скорее всего, были релевантными и область для вашего сценария решения.

2. Уровень системы безопасности

Уровень системы безопасности включает конфигурации и возможности уровня платформы, которые помогают снизить вред. Например, Azure AI Studio поддерживает фильтры содержимого, которые применяют критерии для подавления запросов и ответов на основе классификации содержимого на четыре уровня серьезности (безопасный, низкий, средний и высокий) для четырех категорий потенциального вреда (ненависти, сексуального насилия и самоповредения).

Другие способы устранения рисков уровня системы безопасности могут включать алгоритмы обнаружения злоупотреблений, чтобы определить, является ли решение систематически злоупотреблять (например, с помощью больших объемов автоматических запросов от бота) и уведомлений об оповещениях, которые позволяют быстро реагировать на потенциальное злоупотребление системой или вредное поведение.

3. Метапроимпт и слой заземления

Метапроимпт и слой заземления фокусируется на создании запросов, отправленных в модель. Методы устранения вреда, которые можно применить на этом уровне, включают:

Указание метапроимптов или системных входных данных, определяющих параметры поведения для модели.
Применение инженерии запросов для добавления данных заземления к входным запросам, максимизируя вероятность соответствующих, нехармных выходных данных.
Использование метода получения дополненного поколения (RAG) для получения контекстных данных из доверенных источников данных и включения его в запросы.

4. Уровень взаимодействия с пользователем

Уровень взаимодействия с пользователем включает в себя программное приложение, с помощью которого пользователи взаимодействуют с формируемой моделью ИИ и документацией или другими пользователями, описывающими использование решения для своих пользователей и заинтересованных лиц.

Проектирование пользовательского интерфейса приложения для ограничения входных данных для конкретных субъектов или типов, а также применение проверки ввода и вывода может снизить риск потенциально опасных ответов.

Документация и другие описания создаваемого решения ИИ должны быть надлежащим образом прозрачными в отношении возможностей и ограничений системы, моделей, на которых она основана, и любых потенциальных причинений, которые не всегда могут быть устранены мерами по устранению рисков, которые вы создали.

Устранение потенциальных причинений вреда

1. Уровень модели

2. Уровень системы безопасности

3. Метапроимпт и слой заземления

4. Уровень взаимодействия с пользователем

Обратная связь