Поделиться через


Оценка производительности: метрики, которые имеют значение

В этой статье описывается измерение производительности приложения RAG для качества получения, ответа и производительности системы.

Получение, ответ и производительность

С помощью набора для оценки можно измерять производительность приложения RAG по ряду параметров, в том числе:

  • Качество получения: метрики получения оценивают, как приложение RAG успешно извлекает соответствующие вспомогательные данные. Точность и отзыв — это две ключевые метрики извлечения.
  • Качество ответа: метрики качества ответа оценивают, насколько хорошо приложение RAG отвечает на запрос пользователя. Метрики ответа могут измерять, например, если результирующий ответ является точным на основе основания, насколько хорошо ответ был получен контекст (например, llM галлюцинации?) или как безопасный ответ был (иными словами, не токсичность).
  • Производительность системы (затраты и задержка): метрики фиксируют общую стоимость и производительность приложений RAG. Общая задержка и использование маркеров являются примерами метрик производительности цепочки.

Очень важно собирать метрики ответа и извлечения. Приложение RAG может плохо реагировать, несмотря на получение правильного контекста; он также может предоставлять хорошие ответы на основе неисправных извлечение. Только измеряя оба компонента, мы можем точно диагностировать и устранять проблемы в приложении.

Подходы к измерению производительности

Существует два ключевых подхода к измерению производительности для этих метрик:

  • Детерминированное измерение: метрики затрат и задержки можно вычислять детерминированным образом на основе выходных данных приложения. Если ваш набор для оценки включает список документов, которые содержат ответ на вопрос, то подмножество метрик извлечения также можно вычислить детерминированным образом.
  • Измерение на основе судьи LLM: в этом подходе отдельный LLM выступает в качестве судьи для оценки качества получения и ответа приложения RAG. Некоторые судьи LLM, такие как правильность ответа, сравнивают человеческую истину земли и выходные данные приложения. Другие судьи LLM, такие как заземленность, не требуют человеческую метку правды для оценки выходных данных приложения.

Внимание

Чтобы судья LLM был эффективным, его необходимо настроить, чтобы понять вариант использования. Это требует тщательного внимания, чтобы понять, где судья делает и не работает хорошо, а затем настроить судью, чтобы улучшить его для случаев сбоя.

Оценка агента ИИ Мозаики предоставляет внеполную реализацию, используя размещенные модели судьи LLM для каждой метрики, описанной на этой странице. Документация по оценке агента описывает , как реализованы эти метрики и судьи, и предоставляет возможности для настройки судей с данными для повышения их точности.

Общие сведения о метриках

Ниже приведена сводка метрик, которые Databricks рекомендует для измерения качества, стоимости и задержки приложения RAG. Эти метрики реализованы в оценке агента ИИ Мозаики.

Измерение Имя метрики Вопрос Измерение Нуждается в земле правду?
Извлечение chunk_relevance/точность Какие % полученных блоков относятся к запросу? Судья LLM No
Извлечение document_recall Какие % документов по правде земли представлены в извлеченных фрагментах? Детерминированное Да
Извлечение достаточность контекста Являются ли полученные блоки достаточны для получения ожидаемого ответа? Судья LLM Да
Response корректность В целом, сгенерировал ли агент правильный ответ? Судья LLM Да
Response relevance_to_query Относится ли ответ к запросу? Судья LLM No
Response заземление Ответ галлюцинации или заземлен в контексте? Судья LLM No
Response безопасность Есть ли вредное содержимое в ответе? Судья LLM No
Себестоимость total_token_count, total_input_token_count, total_output_token_count Что такое общее количество маркеров для поколений LLM? Детерминированное No
Задержка latency_seconds Какова задержка выполнения приложения? Детерминированное No

Как работают метрики извлечения

Метрики получения помогают понять, предоставляет ли извлекатель соответствующие результаты. Метрики получения основаны на точности и отзыве.

Имя метрики Ответ на вопрос Сведения
Точность Какие % полученных блоков относятся к запросу? Точность — это доля извлеченных документов, которые фактически относятся к запросу пользователя. Судья LLM можно использовать для оценки релевантности каждого полученного фрагмента запроса пользователя.
Отзыв Какие % документов по правде земли представлены в извлеченных фрагментах? Напомним, это доля наземных документов истины, представленных в извлеченных фрагментах. Это мера полноты результатов.

Точность и отзыв

Ниже приведен быстрый праймер по точности и отзыв, адаптированный из отличной статьи Википедии.

Формула точности

Меры точности "Из полученных фрагментов, какие% из этих элементов фактически относятся к запросу моего пользователя?" Точность вычислений не требует знания всех соответствующих элементов.

Формула для вычисления точности.

Формула отзыва

Помните меры "Из всех документов, которые я знаю, имеют отношение к запросу моего пользователя, что % я получил фрагмент из?" Вычисление отзыв требует, чтобы ваша истина была в основе всех соответствующих элементов. Элементы могут быть документом или блоком документа.

Формула вычисления отзыва.

В приведенном ниже примере два из трех полученных результатов относятся к запросу пользователя, поэтому точность составила 0,66 (2/3). Полученные документы включали два из четырех соответствующих документов, поэтому отзыв был 0,5 (2/4).

Схема, показывающая точность и измерение отзыва.

< Предыдущий: определение качества

Далее: включение оценки >