Мониторинг злоупотреблений

Статья
11/19/2024

Служба Azure OpenAI обнаруживает и устраняет экземпляры повторяющегося содержимого и (или) поведения, которые предлагают использование службы способом, который может нарушить кодекс поведения или другие применимые условия продукта. Сведения о том, как обрабатываются данные, можно найти на странице "Данные", " Конфиденциальность" и "Безопасность ".

Компоненты мониторинга злоупотреблений

Существует несколько компонентов для мониторинга злоупотреблений:

Классификация содержимого: модели классификатора обнаруживают вредоносный текст и (или) изображения в запросах пользователей (входных данных) и завершениях (выходных данных). Система ищет категории вреда, как определено в требованиях к содержимому, и назначает уровни серьезности, как описано более подробно на странице фильтрации содержимого. Сигналы классификации контента способствуют обнаружению шаблонов, как описано ниже.
Отслеживание шаблонов злоупотреблений: система мониторинга злоупотреблений в Службе Azure OpenAI рассматривает шаблоны использования клиентов и использует алгоритмы и эвристики для обнаружения и оценки индикаторов потенциального злоупотребления. Обнаруженные шаблоны рассматривают, например, частоту и серьезность обнаружения вредного содержимого (как указано в сигналах классификатора содержимого) в запросах и завершениях клиента, а также преднамеренность поведения. Тенденции и срочность обнаруженного шаблона также повлияют на оценку потенциальной серьезности злоупотреблений. Например, более высокий объем вредного содержимого, классифицируемый как более высокий уровень серьезности, или повторяющееся поведение, указывающее на преднамеренность (например, повторяющиеся попытки тюрьмы) чаще получают высокую оценку, указывающую на потенциальное злоупотребление.
Проверка и решение. Запросы и завершения, помеченные с помощью классификации содержимого и /или идентифицированные как часть потенциально оскорбительных шаблонов использования, подвергаются другому процессу проверки, чтобы помочь подтвердить анализ системы и информировать решения о действиях. Такая проверка проводится двумя методами: обзором и анализом искусственного интеллекта.
- По умолчанию, если запросы и завершения помечаются с помощью классификации содержимого как вредного и/или определенного, что они являются частью потенциально оскорбительных шаблонов использования, они могут быть образцы для автоматической, глаз вне проверки с помощью LLM вместо рецензента человека. LLM, используемый для этой цели, обрабатывает запросы и завершения только для подтверждения анализа системы и информирования о принятии решений о действиях; запросы и завершения, которые проходят проверку LLM, не хранятся системой или используются для обучения LLM или других систем.
- В некоторых случаях, если автоматическая проверка не соответствует применимым пороговым значениям достоверности в сложных контекстах или если системы проверки LLM недоступны, может быть представлен обзор глаз человека для принятия дополнительных решений. Это может помочь улучшить общую точность анализа злоупотреблений. Авторизованные сотрудники Майкрософт могут оценивать помеченное содержимое, а также подтвердить или исправить классификацию или определение на основе предопределенных рекомендаций и политик. Запросы и завершения могут быть доступны только авторизованным сотрудникам Майкрософт с помощью рабочих станций secure Access (SAWs) с утверждением JIT-запроса, предоставленного руководителями команд. Для ресурсов Службы Azure OpenAI, развернутых в Европейской экономической зоне, авторизованные сотрудники Майкрософт находятся в Европейской экономической зоне. Этот процесс проверки человека не будет проходить, если клиент был утвержден для изменения мониторинга злоупотреблений.
Уведомление и действие. Если порог жестокого поведения подтвержден на основе предыдущих шагов, клиент уведомляется об определении по электронной почте. За исключением случаев серьезных или повторяющихся злоупотреблений, клиенты обычно получают возможность объяснить или исправить их, а также реализовать механизмы для предотвращения повторения — жестокого поведения. Неспособность устранить поведение (или повторяющиеся или серьезные нарушения) может привести к приостановке или прекращению доступа клиента к ресурсам Azure OpenAI и (или) возможностям.

Изменен мониторинг злоупотреблений

Для обработки особо конфиденциальных данных в службе Azure OpenAI и в других случаях некоторым клиентам может потребоваться отключить хранение и проверку запросов и ответов специалистами Майкрософт в рамках системы обнаружения неправильного использования. Чтобы устранить эти проблемы, корпорация Майкрософт позволяет клиентам, которые отвечают дополнительным критериям предоставления ограниченного доступа для применения к изменению мониторинга злоупотреблений, выполнив эту форму. Узнайте больше о применении к измененным мониторингу злоупотреблений в Службе OpenAI Azure с ограниченным доступом и о влиянии измененного мониторинга злоупотреблений на обработку данных, конфиденциальности и безопасности для Службы Azure OpenAI.

Примечание.

Если мониторинг злоупотреблений изменен и проверка человека не выполняется, обнаружение потенциальных злоупотреблений может быть менее точным. Клиенты уведомляются о потенциальном обнаружении злоупотреблений, как описано выше, и должны быть готовы реагировать на такое уведомление, чтобы избежать прерывания работы службы, если это возможно.

Следующие шаги

Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.
Дополнительные сведения о понимании и устранении рисков, связанных с приложением, см . в обзоре методик ответственного ИИ для моделей Azure OpenAI.
Узнайте больше о том, как данные обрабатываются в фильтрации содержимого и мониторинге злоупотреблений: данные, конфиденциальность и безопасность для Службы Azure OpenAI.

Поделиться через

Мониторинг злоупотреблений

Компоненты мониторинга злоупотреблений

Изменен мониторинг злоупотреблений

Следующие шаги

Обратная связь

Дополнительные ресурсы