Настройка фильтров содержимого с помощью Azure AI Foundry
Система фильтрации содержимого, интегрированная в Azure AI Foundry, работает вместе с основными моделями, включая модели создания образов DALL-E. В нем используется ансамбль моделей классификации с несколькими классами для обнаружения четырех категорий вредного содержимого (насилия, ненависти, сексуального и самостоятельного вреда) на четырех уровнях серьезности (безопасный, низкий, средний и высокий), а также необязательные двоичные классификаторы для обнаружения риска взлома, существующего текста и кода в общедоступных репозиториях.
Конфигурация фильтрации контента по умолчанию используется для фильтрации по порогу средней серьезности для всех четырех категорий вреда содержимого для запросов и выполненных процессов. Это означает, что содержимое, обнаруженное на уровне серьезности среднего или высокого уровня, фильтруется, а содержимое, обнаруженное на низком или безопасном уровне серьезности, не фильтруется фильтрами содержимого. Дополнительные сведения о категориях контента, уровнях серьезности и поведении системы фильтрации содержимого см. здесь.
Обнаружение рисков в тюрьме и защищенные модели текста и кода являются необязательными и по умолчанию. Функция настройки позволяет всем клиентам включать и отключать модели в виде тюрьмы и защищенных материалов. Модели по умолчанию включены и могут быть отключены для каждого сценария. Некоторые модели должны быть включены для определенных сценариев, чтобы сохранить покрытие в соответствии с обязательством по защите авторских прав клиента.
Примечание.
Все клиенты могут изменять фильтры контента и настраивать пороговые значения серьезности (низкий, средний, высокий). Утверждение требуется для частичного или полного отключения фильтров контента. Только управляемые клиенты могут подать заявку на получение полного контроля над фильтрацией контента с помощью проверки ограниченного доступа к Azure OpenAI: измененные фильтры контента. В настоящее время невозможно стать управляемым клиентом.
Фильтры содержимого можно настроить на уровне ресурса. После создания новой конфигурации ее можно связать с одним или несколькими развертываниями. Дополнительные сведения о моделях развертывания Azure, см. в руководстве по развертыванию ресурсов.
Необходимые компоненты
- Для настройки фильтров содержимого необходимо использовать ресурс Azure OpenAI и крупное развертывание языковой модели (LLM). Чтобы приступить к работе, ознакомьтесь с этим руководством.
Общие сведения о настройке фильтра содержимого
Служба Azure OpenAI включает параметры безопасности по умолчанию, применяемые ко всем моделям, за исключением Whisper Azure OpenAI. Эти конфигурации предоставляют ответственный интерфейс по умолчанию, включая модели фильтрации содержимого, блок-списки, преобразование запросов, учетные данные содержимого и другие. Дополнительные сведения см. здесь.
Все клиенты также могут настраивать фильтры содержимого и создавать настраиваемые политики безопасности, адаптированные к их требованиям к варианту использования. Функция настройки позволяет клиентам настраивать параметры отдельно для запросов и завершения, чтобы фильтровать содержимое для каждой категории контента на разных уровнях серьезности, как описано в таблице ниже. Содержимое, обнаруженное на уровне серьезности "безопасный", помечено в заметках, но не подлежит фильтрации и не настраивается.
Фильтрация серьезности | Настраиваемая для запросов | Настраиваемая для завершения | Descriptions |
---|---|---|---|
Низкий, средний, высокий | Да | Да | Самая строгая конфигурация фильтрации. Содержимое, обнаруженное на уровнях серьезности, низком, среднем и высоком, фильтруется. |
Средний, высокий | Да | Да | Содержимое, обнаруженное на низком уровне серьезности, не фильтруется, содержимое на среднем и высоком уровне фильтруется. |
Высокая | Да | Да | Содержимое, обнаруженное на уровнях серьезности, не фильтруется. Фильтруется только содержимое на высоком уровне серьезности. |
Фильтры отсутствуют. | Если утверждено1 | Если утверждено1 | Содержимое не фильтруется независимо от уровня серьезности. Требуется утверждение1. |
Только annotate | Если утверждено1 | Если утверждено1 | Отключает функции фильтра, поэтому содержимое не будет заблокировано, но заметки возвращаются через ответ API. Требуется утверждение1. |
1 Для моделей Azure OpenAI только клиенты, которые были утверждены для изменения фильтрации содержимого, имеют полный элемент управления фильтрацией содержимого и могут отключить фильтры содержимого. Примените для измененных фильтров содержимого с помощью этой формы: Проверка ограниченного доступа Azure OpenAI: измененные фильтры содержимого. Для клиентов Azure для государственных организаций применяется к измененным фильтрам содержимого с помощью этой формы: Azure для государственных организаций — запрос на фильтрацию измененного содержимого для службы OpenAI Azure.
Настраиваемые фильтры содержимого для входных данных (запросов) и выходных данных (завершения) доступны для следующих моделей Azure OpenAI:
- Серия моделей GPT
- GPT-4 Turbo Vision GA* (
turbo-2024-04-09
) - GPT-4o
- GPT-4o mini
- DALL-E 2 и 3
Настраиваемые фильтры содержимого недоступны для
- o1-preview
- o1-mini
*Доступно только для GPT-4 Turbo Vision GA, не применяется к GPT-4 Turbo Vision preview
Конфигурации фильтрации содержимого создаются на портале Azure AI Foundry и могут быть связаны с развертываниями. Дополнительные сведения о настройке см. здесь.
Клиенты отвечают за обеспечение соответствия приложений, интегрирующих Azure OpenAI кодексу поведения.
Общие сведения о других фильтрах
Вы можете настроить следующие категории фильтров в дополнение к фильтрам категорий вреда по умолчанию.
Категория фильтра | Состояние | Значение по умолчанию | Применено к запросу или завершению? | Description |
---|---|---|---|---|
Экраны запроса для прямых атак (разломка) | Общедоступная версия | Включено | Запрос пользователя | Фильтры или аннотирует запросы пользователей, которые могут представлять риск для тюрьмы. Дополнительные сведения о заметках см . в фильтрации содержимого Azure AI Foundry. |
Экраны запроса для непрямых атак | Общедоступная версия | Выключено | Запрос пользователя | Фильтрация и непрямые атаки, также называемые непрямым атаками на запросы или атаки на внедрение запросов между доменами, потенциальной уязвимостью, в которой сторонние стороны размещают вредоносные инструкции в документах, к которым может обращаться и обрабатывать система искусственного интеллекта. Требуется: внедрение документов и форматирование. |
Защищенный материал — код | Общедоступная версия | Включено | Completion | Фильтрует защищенный код или получает примеры ссылок и лицензий в заметках для фрагментов кода, которые соответствуют любым общедоступным источникам кода, на основе GitHub Copilot. Дополнительные сведения об использовании заметок см. в руководстве по фильтрации содержимого |
Защищенный материал — текст | Общедоступная версия | Включено | Completion | Определяет и блокирует отображение известного текстового содержимого в выходных данных модели (например, текст песни, рецепты и выбранное веб-содержимое). |
Заземленность* | Предварительный просмотр | Выключено | Completion | Определяет, находятся ли текстовые ответы больших языковых моделей (LLM) в исходных материалах, предоставляемых пользователями. Незапланированность относится к экземплярам, в которых LLM создают информацию, которая не является фактической или неточной из того, что было представлено в исходных материалах. Требуется: внедрение документов и форматирование. |
Создание фильтра содержимого в Azure AI Foundry
Для любого развертывания модели в Azure AI Foundry можно напрямую использовать фильтр содержимого по умолчанию, но вам может потребоваться больше управления. Например, можно сделать фильтр более строгим или более мягким или включить более сложные возможности, такие как экраны запросов и защищенное обнаружение материалов.
Совет
Дополнительные сведения о фильтрации содержимого с фильтрами содержимого в проекте Azure AI Foundry см. в статье "Фильтрация содержимого Azure AI Foundry".
Выполните следующие действия, чтобы создать фильтр содержимого:
Перейдите в Azure AI Foundry и перейдите к проекту. Затем выберите страницу "Безопасность и безопасность " в меню слева и перейдите на вкладку "Фильтры содержимого ".
Выберите и создайте фильтр содержимого.
На странице "Основные сведения" введите имя конфигурации фильтрации содержимого. Выберите соединение для связывания с фильтром содержимого. Затем выберите Далее.
Теперь можно настроить входные фильтры (для запросов пользователей) и выходные фильтры (для завершения модели).
На странице "Входные фильтры" можно задать фильтр для запроса ввода. Для первых четырех категорий контента существует три уровня серьезности, которые настраиваются: низкий, средний и высокий. Ползунки можно использовать для задания порогового значения серьезности, если определить, что для приложения или сценария использования требуется фильтрация, отличная от значений по умолчанию. Некоторые фильтры, такие как экраны запросов и обнаружение защищенных материалов, позволяют определить, должна ли модель анимировать и /или блокировать содержимое. При выборе annotate выполняется только соответствующая модель и возвращаются заметки через ответ API, но он не будет фильтровать содержимое. Помимо аннации, вы также можете заблокировать содержимое.
Если ваш вариант использования был утвержден для измененных фильтров содержимого, вы получаете полный контроль над конфигурациями фильтрации содержимого и можете отключить фильтрацию частично или полностью или включить отключать только для категорий вреда содержимого (насилие, ненависть, сексуальное и самоповредение).
Содержимое будет аннотировано по категориям и заблокировано в соответствии с заданным пороговым значением. Для насилия, ненависти, сексуальной и самовредяющей категории, отрегулируйте ползунок, чтобы заблокировать содержимое высокого, среднего или низкого уровня серьезности.
На странице "Фильтры выходных данных" можно настроить выходной фильтр, который будет применяться ко всему выходному содержимому, созданному моделью. Настройте отдельные фильтры, как и раньше. Эта страница также предоставляет параметр режима потоковой передачи, который позволяет фильтровать содержимое практически в режиме реального времени по мере его создания моделью, уменьшая задержку. После завершения нажмите кнопку "Далее".
Содержимое будет аннотировано каждой категорией и заблокировано в соответствии с пороговым значением. Для насильственного содержимого, ненавидимого содержимого, сексуального содержимого и категории содержимого самоповреждения настройте пороговое значение, чтобы заблокировать вредное содержимое с равными или более высокими уровнями серьезности.
При необходимости на странице развертывания можно связать фильтр содержимого с развертыванием. Если выбранное развертывание уже подключено к фильтру, необходимо убедиться, что вы хотите заменить его. Вы также можете связать фильтр содержимого с развертыванием позже. Нажмите кнопку создания.
Конфигурации фильтрации содержимого создаются на уровне концентратора на портале Azure AI Foundry. Дополнительные сведения о настройке см. в документации по Службе OpenAI Azure.
На странице "Рецензирование" просмотрите параметры и нажмите кнопку "Создать фильтр".
Использование списка блокировок в качестве фильтра
Список блокировок можно применить как входной или выходной фильтр или оба. Включите параметр "Список блокировок" на странице фильтра входных данных и (или) фильтра вывода. Выберите один или несколько списков блокировок из раскрывающегося списка или используйте встроенный список блокировок ненормативной лексики. Вы можете объединить несколько блок-списков в один фильтр.
Применение фильтра содержимого
Процесс создания фильтра позволяет применить фильтр к нужным развертываниям. Вы также можете изменять или удалять фильтры содержимого из развертываний в любое время.
Выполните следующие действия, чтобы применить фильтр содержимого к развертыванию:
Перейдите в Azure AI Foundry и выберите проект.
Выберите модели и конечные точки в левой области и выберите один из развертываний, а затем нажмите кнопку "Изменить".
В окне развертывания обновления выберите фильтр содержимого, который нужно применить к развертыванию. Затем нажмите кнопку "Сохранить" и "Закрыть".
При необходимости можно также изменить и удалить конфигурацию фильтра содержимого. Перед удалением конфигурации фильтрации содержимого необходимо отменить назначение и заменить его на вкладке "Развертывания".
Теперь вы можете перейти на площадку, чтобы проверить, работает ли фильтр содержимого должным образом.
Отзыв о фильтрации содержимого отчета
Если возникает проблема с фильтрацией содержимого, нажмите кнопку "Отзывы о фильтрах" в верхней части игровой площадки. Это включено на игровой площадке "Изображения", "Чат" и "Завершение" после отправки запроса.
При появлении диалогового окна выберите соответствующую проблему фильтрации содержимого. Добавьте максимально подробную информацию, связанную с проблемой фильтрации содержимого, например с определенной ошибкой запроса и фильтрации содержимого, с которой вы столкнулись. Не включать частную или конфиденциальную информацию.
Для поддержки отправьте запрос в службу поддержки.
Применение рекомендаций
Мы рекомендуем сообщить о решениях по настройке фильтрации содержимого с помощью итеративной идентификации (например, красного тестирования, стресс-тестирования и анализа) и процесса измерения, чтобы устранить потенциальные последствия, которые относятся к определенной модели, приложению и сценарию развертывания. После реализации таких мер, как фильтрация содержимого, повторите измерение для проверки эффективности. Рекомендации и рекомендации по ответственному ИИ для Azure OpenAI, основанные на стандарте Ответственного ИИ Майкрософт, можно найти в обзоре ответственного ИИ для Azure OpenAI.
Связанный контент
- Узнайте больше о методиках ответственного ИИ для Azure OpenAI: общие сведения о рекомендациях ответственного ИИ для моделей Azure OpenAI.
- Узнайте больше о категориях и уровнях серьезности содержимого с помощью Azure AI Foundry.
- Дополнительные сведения о красной команде см. в статье "Общие сведения о красной команде больших языковых моделей ( LLMs).