Оценка приложений генеративного ИИ

Статья
2025-04-09

Это важно

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

В быстро развивающемся ландшафте искусственного интеллекта интеграция операций генерирования ИИ (GenAIOps) преобразует способ разработки и развертывания приложений ИИ организациями. Поскольку предприятия все чаще полагаются на ИИ для улучшения принятия решений, улучшения взаимодействия с клиентами и внедрения инноваций, важность надежной платформы оценки не может быть чрезмерной. Оценка является важным компонентом жизненного цикла создания искусственного интеллекта для создания доверия и доверия к приложениям, ориентированным на ИИ. Если эти приложения не разработаны тщательно, они могут производить результаты, которые создаются и не связаны с контекстом, неуместны или несогласованны, что приводит к неблагоприятному опыту клиентов или, что хуже, способствует сохранению социальных стереотипов, распространению недостоверной информации, подвергает организации вредоносным атакам или приводит к широкому спектру других негативных последствий.

Оценщики — это полезные инструменты для оценки частоты и тяжести рисков, связанных с содержанием, или нежелательного поведения в ответах искусственного интеллекта. Выполнение итеративных, систематических оценок с правильными оценщиками может помочь командам измерять и устранять потенциальные проблемы с качеством ответов, безопасностью или защитой на протяжении жизненного цикла разработки ИИ, от начального выбора модели до мониторинга после выполнения. Оценка в производственной среде жизненного цикла GenAI.

Понимая и реализуя эффективные стратегии оценки на каждом этапе, организации могут гарантировать, что их решения искусственного интеллекта не только соответствуют первоначальным ожиданиям, но и адаптируются и процветают в реальных средах. Давайте рассмотрим, как оценка соответствует трем критически важным этапам жизненного цикла ИИ.

Выбор базовой модели

Первый этап жизненного цикла ИИ включает выбор соответствующей базовой модели. Модели генерного искусственного интеллекта широко зависят от возможностей, сильных сторон и ограничений, поэтому важно определить, какая модель лучше подходит для конкретного варианта использования. Во время оценки базовой модели вы можете сравнить различные модели, проверив их выходные данные в отношении набора критериев, относящихся к вашему приложению.

Основные аспекты на этом этапе могут включать:

Точность и качество: насколько хорошо модель создает соответствующие и последовательные ответы?
Производительность конкретных задач: может ли модель обрабатывать тип запросов и содержимого, необходимых для вашего варианта использования? Какова его задержка и стоимость?
Предвзятые и этические соображения: создает ли модель какие-либо выходные данные, которые могут увековечить или способствовать вредным стереотипам?
Риск и безопасность: существуют ли какие-либо риски для модели, создающей небезопасное или вредоносное содержимое?

Вы можете изучить тестыAzure AI Foundry для оценки и сравнения моделей на общедоступных наборах данных, а также повторного создания результатов теста на основе собственных данных. Кроме того, можно оценить одну из многих базовых генеративных моделей ИИ с помощью пакета SDK для оценки ИИ в Azure, как показано, см. пример оценки конечных точек модели.

Оценка перед производством

После выбора базовой модели следующим шагом является разработка приложения ИИ, например чат-бота с использованием ИИ, приложения с дополнением генерации (RAG), агентивного ИИ приложения или любого другого средства генеративного ИИ. После разработки начинается предварительная оценка. Прежде чем развертывать приложение в рабочей среде, необходимо тщательное тестирование, чтобы убедиться, что модель действительно готова к реальному использованию.

Предварительная оценка включает в себя:

Тестирование с помощью наборов данных оценки. Эти наборы данных имитируют реалистичные взаимодействия пользователей, чтобы обеспечить выполнение приложения ИИ должным образом.
Определение пограничных вариантов: поиск сценариев, в которых качество отклика приложения ИИ может снизить или вызвать нежелательные выходные данные.
Оценка надежности: обеспечение того, что модель может обрабатывать диапазон входных вариантов без значительного снижения качества или безопасности.
Измерение ключевых метрик: такие метрики, как обоснованность ответа, релевантность и безопасность, оцениваются для подтверждения готовности к производству.

Предварительный этап выступает в качестве окончательной проверки качества, уменьшая риск развертывания приложения ИИ, которое не соответствует требуемым стандартам производительности или безопасности.

Используйте собственные данные: вы можете оценить ваши приложения ИИ в пред-эксплуатационной среде, используя собственные данные оценки вместе с поддерживаемыми оценщиками Azure AI Foundry или пакета SDK для оценки ИИ Azure, включая оценку качества генерации, безопасности, или собственных оценщиков, а также просматривать результаты через портал Azure AI Foundry.
Симуляторы и агент командной группы ИИ (предварительная версия): если у вас нет данных оценки (тестовые данные), симуляторы пакета SDK для оценки ИИ Azure могут помочь, создав связанные с темами или состязательные запросы. Эти симуляторы проверяют реакцию модели на запросы, соответствующие ситуации или напоминающие атаку (граничные случаи).
- Состязательные симуляторы внедряют статические запросы, которые имитируют потенциальные риски безопасности или атаки безопасности, такие как или попытки взлома, помогая определить ограничения и подготовить модель к непредвиденным условиям.
- Контекстуально соответствующие симуляторы создают типичные беседы, которых ожидают пользователи, чтобы проверить качество ответов. С помощью контекстных симуляторов можно оценить такие метрики, как заземление, релевантность, согласованность и беглость созданных ответов.
- Агент красной команды искусственного интеллекта (предварительная версия) имитирует сложные состязательные атаки на систему ИИ, используя широкий спектр атак безопасности и безопасности с помощью открытой платформы Майкрософт для средства идентификации рисков Python или PyRIT. Автоматические проверки с помощью агента командной группы искусственного интеллекта повышают предварительную оценку рисков путем систематического тестирования приложений ИИ для рисков. Этот процесс включает имитированные сценарии атаки для выявления слабых мест в ответах модели до реального развертывания. Проводя проверки на прочность с использованием ИИ, вы можете обнаруживать и устранять потенциальные проблемы безопасности перед развертыванием. Это средство рекомендуется использовать в сочетании с процессами с участием человека, такими как обычная проверка на прочность систем искусственного интеллекта, для ускорения идентификации рисков и содействия эксперту в оценке.

Кроме того, вы можете использовать мини-приложение оценки портала Azure AI Foundry для тестирования созданных приложений ИИ.

После достижения удовлетворительных результатов приложение ИИ можно развернуть в рабочей среде.

Мониторинг после производства

После развертывания приложение ИИ переходит на этап после рабочей оценки, также известный как онлайн-оценка или мониторинг. На этом этапе модель внедряется в реальный продукт и реагирует на фактические запросы пользователей в рабочей среде. Мониторинг гарантирует, что модель продолжает вести себя должным образом и адаптироваться к любым изменениям в поведении пользователя или содержимом.

Непрерывное отслеживание производительности: регулярно измеряйте ответ приложения ИИ с помощью ключевых метрик, чтобы обеспечить согласованное качество выходных данных.
Реагирование на инциденты: быстро реагировать на любые вредные, несправедливые или неуместные выходные данные, которые могут возникнуть во время реального использования.

Постоянно отслеживая поведение приложения ИИ в рабочей среде, вы можете поддерживать высококачественные пользовательские возможности и быстро устранять все проблемы, которые возникают.

Заключение

GenAIOps — это создание надежного и повторяемого процесса для управления созданными приложениями ИИ в течение всего жизненного цикла. Оценка играет важную роль на каждом этапе, от выбора базовой модели до предварительного тестирования до текущего мониторинга после производства. Систематически измеряя и устраняя риски и уточняя системы ИИ на каждом шаге, команды могут создавать генеривные решения ИИ, которые не только мощные, но и надежные и безопасные для реального использования.

Шпаргалка.

Цель	Процедура	Параметры
Для чего вы оцениваете?	Определение или создание соответствующих оценщиков	- Качество и производительность (образец записной книжки "Качество и производительность") - Безопасность и охрана (Пример записной книжки по безопасности и охране) - Пользовательский (Пользовательский пример записной книжки)
Какие данные следует использовать?	Отправка или создание соответствующего набора данных	Универсальный симулятор для измерения качества и производительности (пример записной книжки для универсального симулятора) - Симулятор оппонента для измерения безопасности и защищенности (пример ноутбука для симулятора оппонента) Агент командной группы искусственного интеллекта для выполнения автоматизированных проверок для оценки уязвимостей безопасности и безопасности (пример записной книжки агента red teaming СИ)
Какие ресурсы должны проводить оценку?	Запуск оценки	— локальный запуск — удаленный запуск в облаке
Как выполнялась модель или приложение?	Анализ результатов	Просмотр статистических показателей, просмотр деталей, просмотр деталей оценки, сравнение запусков оценивания
Как улучшить?	Внесите изменения в модель, приложение или оценщиков	— Если результаты оценки не соответствуют человеческим отзывам, настройте оценщика. — Если результаты оценки соответствуют человеческим отзывам, но не соответствуют пороговым значениям качества и безопасности, применяются целевые меры по устранению рисков.

Поделиться через

Оценка приложений генеративного ИИ

Выбор базовой модели

Оценка перед производством

Мониторинг после производства

Заключение

Связанный контент

Обратная связь

Дополнительные ресурсы