Поделиться через


Как оценить созданные модели ИИ и приложения с помощью Azure AI Foundry

Чтобы тщательно оценить производительность создаваемых моделей ИИ и приложений при применении к существенному набору данных, можно инициировать процесс оценки. Во время этой оценки модель или приложение тестируются с помощью заданного набора данных, а его производительность будет количественно измеряться как с математическими метриками, так и с помощью ИИ. Этот запуск оценки предоставляет подробные сведения о возможностях и ограничениях приложения.

Для выполнения этой оценки можно использовать функцию оценки на портале Azure AI Foundry, комплексную платформу, которая предлагает средства и функции для оценки производительности и безопасности модели создания искусственного интеллекта. На портале Azure AI Foundry вы можете записывать, просматривать и анализировать подробные метрики оценки.

В этой статье вы узнаете, как создать выполнение оценки для модели, тестовый набор данных или поток со встроенными метриками оценки из пользовательского интерфейса Azure AI Foundry. Для повышения гибкости можно установить пользовательский поток оценки и использовать пользовательскую функцию оценки . Кроме того, если цель заключается исключительно в проведении пакетного выполнения без какой-либо оценки, вы также можете использовать пользовательскую функцию оценки.

Необходимые компоненты

Чтобы запустить оценку с помощью метрик с помощью ИИ, необходимо подготовить следующее:

  • Тестовый набор данных в одном из следующих форматов: csv или jsonl.
  • Подключение Azure OpenAI. Развертывание одной из этих моделей: модели GPT 3.5, GPT 4 или Davinci. Требуется только при выполнении оценки качества с поддержкой ИИ.

Создание оценки со встроенными метриками оценки

Выполнение оценки позволяет создавать выходные данные метрик для каждой строки данных в тестовом наборе данных. Вы можете выбрать одну или несколько метрик оценки, чтобы оценить выходные данные из разных аспектов. Вы можете создать запуск оценки на основе страниц оценки, каталога моделей или запросов на портале Azure AI Foundry. Затем откроется мастер создания оценки, который поможет вам настроить выполнение оценки.

На странице оценки

В раскрывающемся меню слева выберите "Оценка>+ Создать новую оценку".

Снимок экрана: кнопка для создания новой оценки.

На странице каталога моделей

В раскрывающемся меню слева выберите каталог> моделей, перейдите к определенной модели>, перейдите на вкладку > benchmark Try с собственными данными. Откроется панель оценки модели для создания запуска оценки для выбранной модели.

Снимок экрана: кнопка

На странице потока

В раскрывающемся меню слева выберите пункт "Оценка>автоматической оценки потока>запроса".

Снимок экрана: выбор встроенной оценки.

Целевой объект оценки

При запуске оценки на странице оценки необходимо сначала решить, что такое целевой объект оценки. Указав соответствующий целевой объект оценки, мы можем адаптировать оценку к определенной природе приложения, обеспечивая точность и соответствующие метрики. Мы поддерживаем три типа целевого объекта оценки:

  • Модель и запрос. Вы хотите оценить выходные данные, созданные выбранной моделью и определяемым пользователем запросом.
  • Набор данных. У вас уже есть выходные данные модели в тестовом наборе данных.
  • Поток запроса: вы создали поток и хотите оценить выходные данные из потока.

Снимок экрана: выбор целевого объекта оценки.

Оценка потока данных или набора данных

При вводе мастера создания оценки можно указать необязательное имя для выполнения оценки. В настоящее время мы предлагаем поддержку сценария запроса и ответа, который предназначен для приложений, которые включают ответы на запросы пользователей и предоставляют ответы с контекстной информацией или без них.

При необходимости можно добавить описания и теги для оценки для улучшения организации, контекста и простоты извлечения.

Вы также можете использовать панель справки для проверки часто задаваемых вопросы и руководства по мастеру.

Снимок экрана: страница основных сведений при создании новой оценки.

Если вы оцениваете поток запроса, можно выбрать поток для оценки. Если вы инициируете оценку на странице "Поток", мы автоматически выбираем поток для оценки. Если вы планируете оценить другой поток, можно выбрать другой. Важно отметить, что в потоке может быть несколько узлов, каждый из которых может иметь собственный набор вариантов. В таких случаях необходимо указать узел и варианты, которые необходимо оценить во время процесса оценки.

Снимок экрана: выбор потока для оценки страницы при создании новой оценки.

Настройка тестовых данных

Вы можете выбрать существующие наборы данных или передать новый набор данных специально для оценки. Тестовый набор данных должен создавать выходные данные модели для оценки, если на предыдущем шаге не выбран поток.

  • Выберите существующий набор данных: можно выбрать тестовый набор данных из установленной коллекции наборов данных.

    Снимок экрана: параметр выбора тестовых данных при создании новой оценки.

  • Добавьте новый набор данных: вы можете отправлять файлы из локального хранилища. Мы поддерживаем .csv только форматы и .jsonl форматы файлов.

    Снимок экрана: параметр отправки файла при создании новой оценки.

  • Сопоставление данных для потока. Если вы выбираете поток для оценки, убедитесь, что столбцы данных настроены на соответствие необходимым входным данным для выполнения пакетного выполнения, создавая выходные данные для оценки. Затем оценка будет проведена с помощью выходных данных потока. Затем настройте сопоставление данных для входных данных на следующем шаге.

    Снимок экрана: сопоставление набора данных при создании новой оценки.

Выберите метрики

Мы поддерживаем три типа метрик, курируемых корпорацией Майкрософт, для упрощения комплексной оценки приложения:

  • Качество ИИ (с помощью ИИ): эти метрики оценивают общее качество и согласованность созданного содержимого. Для выполнения этих метрик требуется развертывание модели в качестве судьи.
  • Качество ИИ (NLP): эти метрики NLP основаны на математических принципах, и они также оценивают общее качество созданного содержимого. Для них часто требуются данные о действительности, но для них не требуется развертывание модели в качестве судьи.
  • Метрики риска и безопасности: эти метрики сосредоточены на выявлении потенциальных рисков содержимого и обеспечении безопасности созданного содержимого.

Снимок экрана: выбор того, что вы хотите оценить с выбранным качеством и безопасностью ИИ.

Вы можете обратиться к таблице для полного списка метрик, для которых мы предлагаем поддержку в каждом сценарии. Дополнительные сведения о определении каждой метрики и ее вычислении см. в разделе "Оценка и мониторинг метрик".

Качество ИИ (СИ) Качество ИИ (NLP) Метрики риска и безопасности
Подобие, релевантность, согласованность, fluency, GPT сходства F1 score, ROUGE, score, BLEU score, GLEU score, METEOR score Содержимое, связанное с самостоятельной вредом, ненавистное и несправедливое содержимое, насильственное содержимое, сексуальное содержимое, защищенный материал, непрямая атака

При выполнении оценки качества ИИ необходимо указать модель GPT для процесса вычисления. Выберите подключение Azure OpenAI и развертывание с помощью GPT-3.5, GPT-4 или модели Davinci для наших вычислений.

Снимок экрана: качество ИИ (с помощью ИИ) с заземленностью, релевантностью и метриками согласованности, выбранными при создании новой оценки.

Метрики качества ИИ (NLP) — это математически основанные измерения, которые оценивают производительность приложения. Они часто требуют данных истины для вычисления. ROUGE — это семейство метрик. Для вычисления показателей можно выбрать тип ROUGE. Различные типы метрик ROUGE предлагают способы оценки качества создания текста. ROUGE-N измеряет перекрытие n-граммов между кандидатом и справочными текстами.

Снимок экрана: качество ИИ (NLP) с заземленностью, релевантностью и метриками согласованности, выбранными при создании новой оценки.

Для метрик риска и безопасности вам не нужно предоставлять подключение и развертывание. Серверная служба оценки безопасности портала Azure AI Foundry подготавливает модель GPT-4, которая может генерировать оценки серьезности содержимого и причины, чтобы вы могли оценить ваше приложение за вред содержимого.

Вы можете задать пороговое значение, чтобы вычислить частоту дефектов для метрик вреда содержимого (содержимое, связанное с самонаправным и несправедливым контентом, насильственным контентом, сексуальным контентом). Скорость дефектов вычисляется путем принятия процента экземпляров с уровнями серьезности (очень низкий, низкий, средний, высокий) над пороговым значением. По умолчанию пороговое значение устанавливается как "Средний".

Для защищенного материала и косвенной атаки скорость дефектов вычисляется путем получения процента экземпляров, в которых выходные данные являются "true" (скорость дефектов = (#trues / #instances) × 100).

Снимок экрана: метрики риска и безопасности, курируемые корпорацией Майкрософт, показывающие самоповредение, защищенный материал и выбранную непрямую атаку.

Примечание.

Метрики риска и безопасности с поддержкой ИИ размещаются в серверной службе оценки безопасности Azure AI Foundry и доступны только в следующих регионах: Восточная часть США 2, Центральная Франция, Южная Великобритания, Центральная Швеция

Сопоставление данных для оценки: необходимо указать, какие столбцы данных в наборе данных соответствуют входным данным, необходимым для оценки. Различные метрики оценки требуют различных типов входных данных для точных вычислений.

Снимок экрана: сопоставление набора данных с входным данными оценки.

Примечание.

Если вы оцениваете данные, "ответ" должен сопоставляться с столбцом ответа в наборе ${data$response}данных. Если вы оцениваете поток, то "ответ" должен поступать из выходных данных ${run.outputs.response}потока.

Рекомендации по конкретным требованиям сопоставления данных для каждой метрики см. в этой таблице:

Требования к метрику запросов и ответов
Метрика Query Response Контекст Земля истина
Соответствие эталонным данным Обязательный: Str Обязательный: Str Обязательный: Str Н/П
Согласованность Обязательный: Str Обязательный: Str Неприменимо Неприменимо
Беглость Обязательный: Str Обязательный: Str Неприменимо Неприменимо
С сортировкой по релевантности Обязательный: Str Обязательный: Str Обязательный: Str Н/П
Сходство GPT Обязательный: Str Обязательный: Str Н/П Обязательный: Str
Оценка F1 Н/П Обязательный: Str Н/П Обязательный: Str
Оценка BLEU Н/П Обязательный: Str Н/П Обязательный: Str
Оценка GLEU Н/П Обязательный: Str Н/П Обязательный: Str
ОЦЕНКА МЕТЕОРА Н/П Обязательный: Str Н/П Обязательный: Str
Оценка ROUGE Н/П Обязательный: Str Н/П Обязательный: Str
Содержимое, связанное с самостоятельной вредом Обязательный: Str Обязательный: Str Неприменимо Неприменимо
Ненавистное и несправедливое содержимое Обязательный: Str Обязательный: Str Неприменимо Неприменимо
Насильственное содержимое Обязательный: Str Обязательный: Str Неприменимо Неприменимо
Сексуальное содержимое Обязательный: Str Обязательный: Str Неприменимо Неприменимо
Защищаемый материал Обязательный: Str Обязательный: Str Неприменимо Неприменимо
Непрямая атака Обязательный: Str Обязательный: Str Неприменимо Неприменимо
  • Запрос: запрос, запрашивающий определенные сведения.
  • Ответ: ответ на запрос, созданный моделью.
  • Контекст: источник, который ответ создается в отношении (т. е. документов приземления)...
  • Земля истина: ответ на запрос, созданный пользователем или человеком в качестве истинного ответа.

Проверка и завершение

После завершения всех необходимых конфигураций можно просмотреть и перейти к нажатию кнопки "Отправить", чтобы отправить выполнение оценки.

Снимок экрана: страница проверки и завершения для создания новой оценки.

Оценка модели и запроса

Чтобы создать новую оценку для развертывания выбранной модели и определенного запроса, используйте упрощенную панель оценки модели. Этот упрощенный интерфейс позволяет настраивать и инициировать оценки в одной консолидированной панели.

Основные сведения

Чтобы начать, можно настроить имя для запуска оценки. Затем выберите развертывание модели, которую вы хотите оценить. Мы поддерживаем модели Azure OpenAI и другие открытые модели, совместимые с моделью как услуга (MaaS), такие как мета-Ллома и семейства Phi-3. При необходимости можно настроить параметры модели, такие как максимальная реакция, температура и верхний P в зависимости от необходимости.

В текстовом поле "Системное сообщение" укажите запрос для вашего сценария. Дополнительные сведения о создании запроса см. в каталоге запросов. Вы можете добавить пример, чтобы отобразить нужные ответы чата. Он попытается имитировать любые ответы, добавленные здесь, чтобы убедиться, что они соответствуют правилам, которые вы указали в системном сообщении.

Снимок экрана: основные сведения.

Настройка тестовых данных

После настройки модели и запроса настройте тестовый набор данных, который будет использоваться для оценки. Этот набор данных будет отправлен в модель для создания ответов для оценки. У вас есть три варианта настройки тестовых данных:

  • Создание примера данных
  • Использование существующего набора данных
  • Добавление набора данных

Если у вас нет доступного набора данных и вы хотите запустить оценку с небольшим примером, можно выбрать вариант использования модели GPT для создания примеров вопросов на основе выбранного раздела. Этот раздел помогает адаптировать созданное содержимое к интересующей вас области. Запросы и ответы будут созданы в режиме реального времени, и вы можете повторно создать их по мере необходимости.

Примечание.

Созданный набор данных будет сохранен в хранилище BLOB-объектов проекта после создания оценки.

Снимок экрана: настройка тестовых данных.

Сопоставление данных

Если вы решили использовать существующий набор данных или отправить новый набор данных, необходимо сопоставить столбцы набора данных с необходимыми полями для оценки. Во время оценки ответ модели будет оцениваться по ключевым входным данным, таким как:

  • Запрос: обязательный для всех метрик
  • Контекст: необязательный
  • Земля истина: необязательно, требуется для метрик качества ИИ (NLP)

Эти сопоставления обеспечивают точное выравнивание данных и критериев оценки.

Снимок экрана: выбор столбца данных.

Выбор метрик оценки

Последний шаг — выбрать то, что вы хотите оценить. Вместо выбора отдельных метрик и необходимости ознакомиться со всеми доступными параметрами, мы упростим процесс, позволяя выбрать категории метрик, которые лучше всего соответствуют вашим потребностям. При выборе категории все соответствующие метрики в этой категории будут вычисляться на основе столбцов данных, указанных на предыдущем шаге. Выбрав категории метрик, можно выбрать "Создать", чтобы отправить выполнение оценки и перейти на страницу оценки, чтобы просмотреть результаты.

Мы поддерживаем три категории:

  • Качество ИИ (с помощью ИИ): необходимо предоставить развертывание модели Azure OpenAI в качестве судьи для вычисления вспомогательных метрик ИИ.
  • Качество ИИ (NLP)
  • Безопасность
Качество ИИ (СИ) Качество ИИ (NLP) Безопасность
Заземленность (требуется контекст), релевантность (требуется контекст), Согласованность, Fluency F1 score, ROUGE, score, BLEU score, GLEU score, METEOR score Содержимое, связанное с самостоятельной вредом, ненавистное и несправедливое содержимое, насильственное содержимое, сексуальное содержимое, защищенный материал, непрямая атака

Создание оценки с помощью пользовательского потока оценки

Вы можете разрабатывать собственные методы оценки:

На странице потока: в раскрывающемся меню слева выберите пункт "Оценка>пользовательской оценки потока>запроса".

Снимок экрана: создание пользовательской оценки из потока запроса.

Просмотр и управление вычислителями в библиотеке оценщиков

Библиотека вычислителя — это централизованное место, которое позволяет просматривать сведения и состояние оценщиков. Вы можете просматривать и управлять вычислителями майкрософт.

Совет

Вы можете использовать пользовательские вычислители с помощью пакета SDK потока запроса. Дополнительные сведения см. в статье "Оценка с помощью пакета SDK потока запросов".

Библиотека вычислителя также включает управление версиями. При необходимости можно сравнить различные версии работы, восстановить предыдущие версии и упростить совместную работу с другими пользователями.

Чтобы использовать библиотеку вычислителя на портале Azure AI Foundry, перейдите на страницу оценки проекта и перейдите на вкладку библиотеки оценки.

Снимок экрана: страница выбора оценщиков из библиотеки оценщика.

Чтобы просмотреть дополнительные сведения, можно выбрать имя вычислителя. Вы можете просмотреть имя, описание и параметры, а также проверить все файлы, связанные с оценщиком. Ниже приведены некоторые примеры курированных вычислителей Майкрософт:

  • Для оценки производительности и качества, курируемых корпорацией Майкрософт, можно просмотреть запрос заметки на странице сведений. Эти запросы можно адаптировать к собственному варианту использования, изменив параметры или критерии в соответствии с вашими данными и целями пакета SDK для оценки ИИ Azure. Например, можно выбрать средство оценки заземления и проверить файл запроса, показывающий, как вычислить метрику.
  • Для оценщиков рисков и безопасности, курируемых корпорацией Майкрософт, можно увидеть определение метрик. Например, можно выбрать средство оценки содержимого, связанного с самообслуживанием, и узнать, что это означает, и как корпорация Майкрософт определяет различные уровни серьезности для этой метрики безопасности.

Следующие шаги

Узнайте больше о том, как оценить созданные приложения ИИ: