Поделиться через


Мониторинг моделей для созданных приложений ИИ (предварительная версия)

Модели мониторинга в рабочей среде являются важной частью жизненного цикла ИИ. Изменения в поведении данных и потребителей могут повлиять на создание приложения ИИ с течением времени, что приводит к устаревшим системам, которые негативно влияют на бизнес-результаты и предоставляют организациям соответствие, экономические и репутационные риски.

Внимание

Мониторинг моделей для создаваемых приложений ИИ в настоящее время находится в общедоступной предварительной версии. Эти предварительные версии предоставляются без соглашения об уровне обслуживания и не рекомендуются для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Машинное обучение Azure мониторинг моделей для создаваемых приложений ИИ упрощает мониторинг приложений LLM в рабочей среде для обеспечения безопасности и качества на уровне, чтобы обеспечить максимальное влияние на бизнес. Мониторинг в конечном счете помогает поддерживать качество и безопасность создаваемых приложений ИИ. К возможностям и интеграции относятся следующие возможности:

Основные понятия мониторинга моделей см. в статье "Мониторинг моделей" с помощью Машинное обучение Azure (предварительная версия). Из этой статьи вы узнаете, как отслеживать создание приложения искусственного интеллекта, поддерживаемого управляемой конечной точкой в Сети. Теперь необходимо выполнить следующие шаги:

Метрики оценки

Метрики создаются следующими языковыми моделями GPT, настроенными с определенными инструкциями по оценке (шаблонами запроса), которые служат моделями оценки для задач последовательности и последовательности. Эта методика показала сильные эмпирические результаты и высокую корреляцию с человеческим решением по сравнению со стандартными метриками оценки и анализа искусственного интеллекта. Дополнительные сведения об оценке потока запроса см. в статье "Отправка массового теста" и оценка потока (предварительная версия) для получения дополнительных сведений об оценке потока запроса.

Эти модели GPT поддерживаются и будут настроены в качестве ресурса Azure OpenAI:

  • GPT-3.5 Turbo
  • GPT-4
  • GPT-4-32k

Поддерживаются следующие метрики. Дополнительные сведения о каждой метрии см. в описании метрик оценки мониторинга и вариантах использования.

  • Приземление: оценивает, насколько хорошо сформированные ответы модели соответствуют данным из источника входных данных.
  • Релевантность: оценивает степень, в которой сформированные ответы модели имеют отношение к заданным вопросам и непосредственно связаны с заданными вопросами.
  • Согласованность: оценивает, насколько хорошо языковая модель может производить потоки вывода гладко, считывает естественно и напоминает человеческий язык.
  • Fluency: оценивает язык знания о прогнозируемом ответе генерируемого ИИ. Он оценивает, насколько хорошо сформированный текст соответствует грамматические правила, синтактические структуры и соответствующее использование словаря, что приводит к лингвистически правильным и естественным звуковым ответам.
  • Сходство: оценивает сходство между наземным предложением истины (или документом) и предложением прогнозирования, созданным моделью ИИ.

Требования к конфигурации метрик

Для измерения безопасности и качества поколения требуются следующие входные данные (имена столбцов данных).

  • текст запроса — исходный запрос (также известный как "входные" или "вопрос")
  • Текст завершения — окончательное завершение вызова API, возвращаемого (также известное как "выходные данные" или "ответ")
  • текст контекста — все данные контекста, отправляемые вызову API, вместе с исходным запросом. Например, если вы надеетесь получить результаты поиска только из определенных сертифицированных источников информации или веб-сайта, можно определить на этапах оценки. Это необязательный шаг, который можно настроить с помощью потока запроса.
  • текст конечной истины — определяемый пользователем текст как "источник истины" (необязательно)

Какие параметры настраиваются в ресурсе данных, определяют, какие метрики можно создать, в соответствии с этой таблицей:

Метрика Prompt Completion Контекст Земля истина
Согласованность Обязательное поле Обязательное поле - -
Беглость Обязательное поле Обязательное поле - -
Соответствие эталонным данным Обязательное поле Обязательно Обязательное поле -
С сортировкой по релевантности Обязательное поле Обязательно Обязательное поле -
Similarity Обязательное поле Обязательно - Обязательное поле

Необходимые компоненты

  1. Ресурс Azure OpenAI: у вас должен быть ресурс Azure OpenAI, созданный с достаточной квотой. Этот ресурс используется в качестве конечной точки оценки.
  2. Управляемое удостоверение: создайте управляемое удостоверение, назначаемое пользователем (UAI) и присоедините его к рабочей области с помощью управляемого удостоверения, назначаемого пользователем, с помощью CLI версии 2с достаточным доступом к роли, как определено на следующем шаге.
  3. Доступ к роли для назначения роли с необходимыми разрешениями необходимо иметь разрешение владельца или Microsoft.Authorization/roleAssignments/write в ресурсе. Обновление подключений и разрешений может занять несколько минут. Эти дополнительные роли должны быть назначены вашему UAI:
    • Ресурс: рабочая область
    • Роль: Машинное обучение Azure Специалист по обработке и анализу данных
  4. Подключение к рабочей области. Для вычисления метрик мониторинга используется управляемое удостоверение, представляющее учетные данные для конечной точки Azure OpenAI. Не удаляйте подключение после его использования в потоке.
    • Версия API: 2023-03-15-preview
  5. Развертывание потока запроса: создайте среду выполнения потока запроса, выполнив этот поток, и убедитесь, что развертывание настроено с помощью этой статьи в качестве руководства.
    • Входные и выходные данные потока: необходимо соответствующим образом назвать выходные данные потока и запомнить эти имена столбцов при создании монитора. В этой статье мы используем следующее:
      • Входные данные (обязательно): "запрос"
      • Выходные данные (обязательно): "завершение"
        • Выходные данные (необязательно): "context" | "земля истина"
    • Сбор данных: в разделе "Развертывание" (шаг 2 мастера развертывания потока запроса) переключатель "сбор данных вывода" должен быть включен с помощью сборщика данных модели.
    • Выходные данные. В окне "Выходные данные" (шаг 3 мастера развертывания потока запроса) убедитесь, что вы выбрали необходимые выходные данные, перечисленные выше (например, завершение | контекст | ground_truth), которые соответствуют требованиям к конфигурации метрик

Примечание.

Если вычислительный экземпляр находится за виртуальной сетью, см . раздел "Сетевая изоляция" в потоке запросов.

Создание монитора

Создание монитора на странице обзора мониторинга Снимок экрана: создание монитора для приложения.

Настройка основных параметров мониторинга

В мастере создания мониторинга измените тип задачи модели на запрос и завершение, как показано на снимке экрана (A). Снимок экрана: настройка базовых параметров мониторинга для создания искусственного интеллекта.

Настройка ресурса данных

Если вы использовали сборщик данных модели, выберите два ресурса данных (входные и выходные данные). Снимок экрана: настройка ресурса данных для создания искусственного интеллекта.

Выбор сигналов мониторинга

Снимок экрана: параметры конфигурации сигнала мониторинга в диалоговом окне параметров мониторинга.

  1. Настройка подключения к рабочей области (A) на снимке экрана.
    1. Необходимо правильно настроить подключение к рабочей области или увидеть следующее: Снимок экрана: ненастройанный сигнал мониторинга.
  2. Введите имя развертывания средства оценки Azure OpenAI (B).
  3. (Необязательно) Присоединение входных и выходных данных рабочей модели: входные и выходные данные рабочей модели автоматически присоединяются службой мониторинга (C). Это можно настроить при необходимости, но никаких действий не требуется. По умолчанию столбец соединения является корреляцией.
  4. (Необязательно) Настройка пороговых значений метрик: допустимая оценка для каждого экземпляра фиксирована в 3/5. Вы можете настроить допустимый общий процент передачи между диапазоном [1,99] %
  • Вручную введите имена столбцов из потока запроса (E). Стандартные имена : ("запрос" | "завершение" | "context" | "ground_truth") но его можно настроить в соответствии с ресурсом данных.

  • (необязательно) Установка частоты выборки (F)

  • После настройки сигнал больше не будет отображать предупреждение. Снимок экрана: конфигурации сигналов мониторинга без предупреждения.

Настройка уведомлений

Предпринимать какие-либо действия не требуется. При необходимости можно настроить больше получателей. Снимок экрана: конфигурации уведомлений мониторинга.

Подтверждение конфигурации сигнала мониторинга

При успешной настройке монитор должен выглядеть следующим образом: Снимок экрана: настроенный сигнал мониторинга.

Подтверждение состояния мониторинга

В случае успешной настройки задание конвейера мониторинга показывает следующее: Снимок экрана: успешно настроенный сигнал мониторинга.

Использование результатов

Страница обзора мониторинга

Обзор монитора содержит общие сведения о производительности сигнала. Вы можете ввести страницу сведений о сигнале для получения дополнительных сведений. Снимок экрана: обзор монитора.

Страница сведений о сигнале

Страница сведений о сигнале позволяет просматривать метрики с течением времени (А) и просматривать гистограммы распределения (B).

Снимок экрана: страница сведений о сигнале.

Разрешение оповещений

Только можно настроить пороговые значения сигнала. Допустимая оценка фиксирована на 3/5, и можно настроить поле "приемлемый общий процент передачи". Снимок экрана: настройка пороговых значений сигнала.

Next Steps