Поделиться через


(Устаревшая версия) Получите отзывы о качестве агентского приложения

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Внимание

Databricks рекомендует использовать приложение ревью текущей версии .

В этой статье показано, как использовать приложение для проверки Databricks для получения отзывов от рецензентов о качестве агентного приложения. В ней рассматриваются следующие компоненты:

  • Развертывание приложения проверки.
  • Как рецензенты используют приложение для предоставления отзывов на ответы агентного приложения.
  • Как эксперты могут просматривать зарегистрированные чаты, чтобы предоставить предложения по улучшению и другим отзывам с помощью приложения.

Что происходит в оценке человека?

Приложение Databricks разворачивает LLM в среде, в которой эксперты и заинтересованные стороны могут взаимодействовать с ним, то есть, например, вести беседы, задавать вопросы, предоставлять отзывы и т. д. Приложение проверки регистрирует все вопросы, ответы и отзывы в таблице вывода, чтобы можно было дополнительно проанализировать производительность LLM. Таким образом, приложение проверки помогает обеспечить качество и безопасность ответов, которые предоставляет ваше приложение.

Заинтересованные лица могут общаться с ботом приложения и предоставлять отзывы об этих беседах или предоставлять отзывы по журналам, проверенным трассировкам или выходным данным агента.

Требования

  • Инференсные таблицы должны быть включены на конечной точке, которая обслуживает агента.

  • Каждый рецензент должен иметь доступ к рабочей области приложения проверки или синхронизироваться с учетной записью Databricks с SCIM. См. следующий раздел : настройка разрешений для использования рецензирующего приложения.

  • Разработчики должны установить пакет SDK databricks-agents, чтобы настроить разрешения и настроить приложение проверки.

    %pip install databricks-agents
    dbutils.library.restartPython()
    

настройка разрешений для использования приложения для отзывов

Примечание.

Рецензентам не требуется доступ к рабочей области для того, чтобы использовать приложение для проверки.

Вы можете предоставить доступ к приложению проверки любому пользователю в учетной записи Databricks, даже если у них нет доступа к рабочей области, содержащей приложение проверки.

  • Для пользователей, у которых нет доступа к рабочей области, администратор учетной записи использует подготовку SCIM на уровне учетной записи для автоматической синхронизации пользователей и групп от вашего поставщика удостоверений с учетной записью Azure Databricks. Вы также можете вручную зарегистрировать этих пользователей и группы, чтобы дать им доступ при настройке идентификаций в Databricks. См. раздел Синхронизация пользователей и групп из идентификатора Microsoft Entra с помощью SCIM.
  • Для пользователей, у которых уже есть доступ к рабочей области, содержащей приложение проверки, дополнительная конфигурация не требуется.

В следующем примере кода показано, как предоставить пользователям разрешение на проверку приложения для агента. Параметр users принимает список адресов электронной почты.

from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)

Чтобы просмотреть журнал чата, пользователь должен иметь CAN_REVIEW разрешение.

Развертывание приложения проверки

При развертывании агента с помощью agents.deploy(), приложение для проверки автоматически включается и развертывается. Выходные данные команды показывают URL-адрес для приложения проверки. Сведения о развертывании агента см. в статье "Развертывание агента для создания приложения искусственного интеллекта".

ссылка на оценку приложения из результатов команды в записной книжке

Если вы потеряете ссылку на развертывание, вы можете найти ее с помощью list_deployments().

from databricks import agents

deployments = agents.list_deployments()
deployments

Просмотр пользовательского интерфейса приложения

Чтобы открыть приложение проверки, щелкните предоставленный URL-адрес. Пользовательский интерфейс приложения проверки содержит три вкладки на левой боковой панели:

При открытии приложения проверки появится страница инструкций.

Просмотр экрана открытия приложения

Предоставьте инструкции рецензентам

Чтобы предоставить пользовательский текст инструкций, отображаемых для рецензентов, используйте следующий код:

from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

Снимок экрана: инструкции по просмотру приложения, указанные в примере Python.

Чат с приложением и отправка отзывов

Чтобы общаться с приложением и отправлять отзывы:

  1. Нажмите кнопку " Тестировать бот " на левой боковой панели.

  2. Введите свой вопрос в поле и нажмите клавишу RETURN или ВВОД на клавиатуре или щелкните стрелку в поле.

    Приложение отображает свой ответ на ваш вопрос и источники, используемые для поиска ответа.

    Примечание.

    Если агент использует средство извлечения, источники данных определяются полем doc_uri, заданным схемой извлекателя во время создания агента. См. схему выборки.

  3. Просмотрите ответ приложения и выберите Да, Нетили я не знаю.

  4. Приложение запрашивает дополнительные сведения. Отметьте соответствующие флажки или введите комментарии в предоставленное поле.

  5. Вы также можете изменить ответ непосредственно, чтобы предоставить лучший ответ. Чтобы изменить ответ, нажмите кнопку "Изменить ответ", внесите изменения в диалоговое окно и нажмите кнопку "Сохранить", как показано в следующем видео.

    Изменение ответа

  6. Нажмите кнопку "Готово", чтобы сохранить отзыв.

  7. Продолжайте задавать вопросы, чтобы предоставить дополнительные отзывы.

На следующей схеме показан этот рабочий процесс.

  1. Используя приложение для отзывов, рецензент общается с агентным приложением.
  2. Используя приложение проверки, рецензент предоставляет отзывы о ответах приложения.
  3. Все запросы, ответы и отзывы записываются в таблицы вывода.

Запустите приложение проверки, в котором эксперты общаются с агентическим приложением и предоставляют отзывы.

Сделать журналы чата доступными для оценки рецензентами экспертов

Когда пользователь взаимодействует с приложением с помощью REST API или приложения проверки, все запросы, ответы и дополнительные отзывы сохраняются в таблицах вывода. Таблицы вывода находятся в том же каталоге каталога Unity и схеме, где была зарегистрирована модель, и называются <model_name>_payload, <model_name>_payload_assessment_logsи <model_name>_payload_request_logs. Дополнительные сведения об этих таблицах, включая схемы, см. в разделе Мониторинг развернутых агентов.

Чтобы загрузить эти журналы в приложение для рецензирования для оценки экспертами, сначала необходимо найти request_id и включить рецензирование для этого request_id следующим образом:

  1. Найдите request_id, которые необходимо проверить из таблицы выводов <model_name>_payload_request_logs. Таблица вывода находится в каталоге и схеме Unity Catalog, в которых была зарегистрирована модель.

  2. Используйте код, аналогичный следующему, чтобы загрузить журналы проверки в приложение проверки:

    from databricks import agents
    
    agents.enable_trace_reviews(
      model_name=model_fqn,
      request_ids=[
          "52ee973e-0689-4db1-bd05-90d60f94e79f",
          "1b203587-7333-4721-b0d5-bba161e4643a",
          "e68451f4-8e7b-4bfc-998e-4bda66992809",
      ],
    )
    
  3. Ячейка результатов содержит ссылку на приложение проверки с выбранными журналами, загруженными для проверки.

Обзор приложения с загруженными чат-логами для экспертной проверки

Экспертная проверка журналов из взаимодействия другого пользователя с приложением

Чтобы просмотреть журналы из предыдущих чатов, журналы должны быть включены для проверки. См. статью "Сделать журналы чата доступными для оценки экспертами-рецензентами".

  1. В левой боковой панели приложения для обзора выберите Чаты для просмотра. Отображаются включенные запросы.

    чаты, доступные для проверки

  2. Щелкните запрос, чтобы отобразить его для проверки.

  3. Просмотрите запрос и ответ. Приложение также показывает источники, используемые для справки. Вы можете щелкнуть их, чтобы просмотреть ссылку, и предоставить отзыв о релевантности источника.

  4. Чтобы предоставить отзыв о качестве ответа, выберите Да, Нетили не знаю.

  5. Приложение запрашивает дополнительные сведения. Отметьте соответствующие поля или введите комментарии в предоставленное поле.

  6. Вы также можете изменить ответ непосредственно, чтобы предоставить лучший ответ. Чтобы изменить ответ, нажмите кнопку "Изменить ответ", внесите изменения в диалоговое окно и нажмите кнопку "Сохранить". Обратите внимание на чат с приложением и отправку отзывов, чтобы узнать, как это работает, в видео.

  7. Нажмите кнопку "Готово", чтобы сохранить отзыв.

На следующей схеме показан этот рабочий процесс.

  1. С помощью приложения для проверки или настраиваемого приложения рецензенты беседуют с агентским приложением.
  2. Все запросы и ответы записываются в таблицы вывода.
  3. Разработчик приложений использует enable_trace_reviews([request_id]) (где request_id взят из таблицы интерпретации <model_name>_payload_request_logs) для публикации журналов чата в приложение для рецензирования.
  4. Используя приложение для проверки, эксперт анализирует журналы и предоставляет обратную связь. Отзывы экспертов регистрируются в таблицах вывода.

Выполните проверку трассировки, при которой рецензенты взаимодействуют либо с приложением для проверки, либо с REST API, чтобы оставить отзывы.

Примечание.

Если у вас включен брандмауэр службы хранилища Azure, обратитесь к группе учетных записей Azure Databricks, чтобы включить таблицы вывода для конечных точек.

Использовать mlflow.evaluate() в таблице журналов запросов

В следующей записной книжке показано, как использовать журналы из приложения проверки в качестве входных данных для выполнения оценки с помощью mlflow.evaluate().

Запуск оценки в записной книжке журналов запросов

Возьмите записную книжку