Шаг 5. Определение первопричины проблем с качеством
См. репозиторий GitHub для примера кода в этом разделе.
Ожидаемое время: 60 минут.
Требования
- Результаты оценки для POC доступны в MLflow. Если вы выполнили шаг 4. Оцените качество POC, результаты доступны в MLflow.
- Все требования из предыдущих шагов.
Обзор
Наиболее вероятными первопричинами проблем качества являются этапы извлечения и создания. Чтобы определить, where сначала сосредоточиться, используйте выходные данные оценки агента ИИ мозаики судьи LLM, которые вы выполнили на предыдущем шаге, чтобы определить наиболее частые первопричины, влияющие на качество вашего приложения.
Каждая строка вашей оценки set помечена следующим образом:
- Общая оценка: передача или сбой.
-
Первопричина:
Improve Retrieval
илиImprove Generation
. - Обоснование первопричины: краткое описание того, почему была выбрана первопричина.
Instructions
Подход зависит от того, содержит ли оценка set эталонные ответы на ваши вопросы. Эти ответы хранятся в expected_response
. Если у вас доступен expected_response
, используйте анализ первопричин table, если доступно истинное значение. В противном случае используйте анализ первопричин table, если истинные данные недоступны.
- Откройте записную книжку B_quality_iteration/01_root_cause_quality_issues.
- Запустите ячейки, относящиеся к вашему варианту использования, например, если у вас нет expected_response
- Просмотрите результаты tables, чтобы определить наиболее частую первопричину в вашем приложении.
- Для каждой первопричины выполните приведенные ниже действия, чтобы продолжить отладку и определить потенциальные исправления:
Анализ первопричин, если правды доступны
Примечание.
Если у вас есть человеческая метка на землю, для которой документ должен быть получен для каждого вопроса, вы можете при необходимости заменить retrieval/llm_judged/chunk_relevance/precision/average
оценку для retrieval/ground_truth/document_recall/average
.
Точность релевантности блока | Соответствие эталонным данным | Правильность | Релевантность запроса | Сводка по проблеме | Основная причина | Общий рейтинг |
---|---|---|---|---|---|---|
<50% | Сбой | Сбой | Сбой | Извлечение плохо. | Improve Retrieval |
Сбой |
<50% | Сбой | Сбой | Пройдено | LLM создает соответствующий ответ, но получение плохо. Например, LLM игнорирует получение и использует свои знания для обучения для ответа. | Improve Retrieval |
Сбой |
<50% | Сбой | Пройдено | Передача или сбой | Качество извлечения плохое, но LLM получает правильный ответ независимо от того. | Improve Retrieval |
Сбой |
<50% | Пройдено | Сбой | Сбой | Ответ заземлен в извлечении, но извлечение плохо. | Improve Retrieval |
Сбой |
<50% | Пройдено | Сбой | Пройдено | Соответствующий ответ, размещенный в полученном контексте, но получение может не быть связано с ожидаемым ответом. | Improve Retrieval |
Сбой |
<50% | Пройдено | Пройдено | Передача или сбой | Получение находит достаточно сведений, чтобы LLM правильно ответил. | нет | Пройдено |
>50% | Сбой | Сбой | Передача или сбой | Галлюцинация. | Improve Generation |
Сбой |
>50% | Сбой | Пройдено | Передача или сбой | Галлюцинация, правильная, но создает сведения не в контексте. | Improve Generation |
Сбой |
>50% | Пройдено | Сбой | Сбой | Хороший получение, но LLM не предоставляет соответствующий ответ. | Improve Generation |
Сбой |
>50% | Пройдено | Сбой | Пройдено | Хороший получение и соответствующий ответ, но не правильный. | Improve Generation |
Сбой |
>50% | Пройдено | Пройдено | Пройдено | Проблемы отсутствуют. | нет | Пройдено |
Анализ первопричин, если земляная истина недоступна
Точность релевантности блока | Соответствие эталонным данным | Релевантность запроса | Сводка по проблеме | Основная причина | Общий рейтинг |
---|---|---|---|---|---|
<50% | Сбой | Сбой | Качество извлечения плохое. | Improve Retrieval |
Сбой |
<50% | Сбой | Пройдено | Качество извлечения плохое. | Improve Retrieval |
Сбой |
<50% | Пройдено | Сбой | Ответ заземлен в извлечении, но извлечение плохо. | Improve Retrieval |
Сбой |
<50% | Пройдено | Пройдено | Соответствующий ответ, полученный в полученном контексте и релевантном, но получение является плохим. | Improve Retrieval |
Пройдено |
>50% | Сбой | Сбой | Галлюцинация. | Improve Generation |
Сбой |
>50% | Сбой | Пройдено | Галлюцинация. | Improve Generation |
Сбой |
>50% | Пройдено | Сбой | Хороший извлечение и заземленный, но LLM не предоставляет соответствующего ответа. | Improve Generation |
Сбой |
>50% | Пройдено | Пройдено | Хороший получение и соответствующий ответ. Соберите землю правду, чтобы узнать, правильно ли ответ. | нет | Пройдено |
Следующий шаг
См. следующие страницы для отладки выявленных проблем:
- Шаг 5 (извлечение). Как отладить качество извлечения
- Шаг 5 (поколение). Как отладить качество создания