Общие сведения об оценке и мониторинге приложений RAG
Оценка и мониторинг являются критически важными компонентами, чтобы понять, выполняется ли приложение RAG в соответствии с требованиями к *качеству, затратам и задержкам, диктуемым вашим вариантом использования. Технически оценка происходит во время разработки и мониторинга после развертывания приложения в рабочей среде, но основные компоненты аналогичны.
RAG над неструктурированными данными — это сложная система с множеством компонентов, влияющих на качество приложения. Изменение любого отдельного элемента может иметь каскадные эффекты для других. Например, изменения форматирования данных могут повлиять на полученные блоки и способность LLM generate соответствующие ответы. Поэтому важно оценить каждый из компонентов приложения в дополнение к приложению в целом, чтобы итеративно уточнить его на основе этих оценок.
Оценка и мониторинг: классическое машинное обучение и создание искусственного интеллекта
Оценка и мониторинг созданных приложений ИИ, включая RAG, отличается от классического машинного обучения несколькими способами:
Раздел | Классическое машинное обучение | Генеративный ИИ |
---|---|---|
Метрики | Метрики оценивают входные и выходные данные компонента, например смещение признаков, точность, отзыв, задержка и т. д. Так как существует только один компонент, общие метрики == метрики компонентов. | Метрики компонентов оценивают входные и выходные данные каждого компонента, например точность @ K, nDCG, задержка, токсичные данные и т. д. Составные метрики оценивают взаимодействие нескольких компонентов: Верность измеряет соблюдение генератором знаний от извлекателя, требующего ввода цепочки, выходных данных цепочки и выходных данных внутреннего извлекателя. Общие метрики оценивают общие входные и выходные данные системы, например правильность ответа и задержку. |
Оценка | Ответ детерминированно "правильный" или "неправильный". Детерминированные метрики работают. | Ответ является "правильным" или "неправильным", но: • Есть много правильных ответов (недетерминированные). • Некоторые правильные ответы более правы. Вам нужно: • Человеческий отзыв, чтобы быть уверенным. • Метрики, отсюждаемые LLM, для масштабирования оценки. |
Компоненты оценки и мониторинга
Для эффективной оценки и мониторинга качества, стоимости и задержки приложений RAG требуется несколько компонентов:
- Оценки set: для тщательной оценки приложения RAG требуется курированная set запросов оценки (и в идеале выходных данных), которые являются представительными для предполагаемого использования приложения. Эти примеры оценки должны быть сложными, разнообразными и обновленными, чтобы отразить изменение использования и требований.
- Определения метрик: вы не можете управлять тем, что вы не измеряете. Чтобы улучшить качество RAG, важно определить, какое качество означает для вашего варианта использования. В зависимости от приложения важные метрики могут включать точность ответа, задержку, затраты или оценки ключевых заинтересованных лиц. Вам потребуются метрики, которые измеряют каждый компонент, как компоненты взаимодействуют друг с другом, а также общую систему.
- Судьи LLM: учитывая открытый характер ответов LLM, невозможно читать каждый ответ каждый раз, когда вы оцениваете, определить правильность выходных данных. Использование дополнительного, другого LLM для просмотра выходных данных может помочь масштабировать оценку и вычислить дополнительные метрики, такие как заземление ответа на тысячи маркеров контекста, которые будут неубедимыми для человеческих коэффициентов эффективно ассиста в масштабе.
- средстве оценки: во время разработки, средство оценки помогает быстро выполнять приложение для каждой записи в set оценки, а затем выполнять все выходные данные с помощью судей LLM и вычислений метрик. Это особенно сложно, так как этот шаг "блокирует" ваш внутренний цикл разработки, поэтому скорость является крайне важной. Хорошая реализация оценки параллелизирует эту работу как можно больше, часто расширяя дополнительную инфраструктуру, например больше емкости LLM для этого.
- Пользовательский интерфейс для заинтересованных лиц: как разработчик, вы не можете быть экспертом по домену в содержимом разрабатываемого приложения. Чтобы получить отзывы от специалистов по работе с людьми, которые могут оценить качество приложения, вам нужен интерфейс, позволяющий им взаимодействовать с приложением и предоставлять подробные отзывы.
- Ведение журнала трассировки рабочей среды: один раз в рабочей среде необходимо оценить значительно большее количество запросов и ответов и способ создания каждого ответа. Например, необходимо знать, является ли первопричиной низкого качества ответа из-за шага извлечения или галлюцинации. Ведение журнала в рабочей среде должно отслеживать входные данные, выходные данные и промежуточные шаги, такие как извлечение документов, чтобы обеспечить непрерывный мониторинг и раннее обнаружение и диагностику проблем, возникающих в рабочей среде.
В этих документах подробно описано, как оценить качество RAG.