Включение измерения: поддержка инфраструктуры

Статья
10/29/2024

В этой статье подробно описана инфраструктура, необходимая для измерения качества и способа его обеспечения Databricks. Измерение качества не легко и требует значительных инвестиций в инфраструктуру.

Подробное ведение журнала трассировки

Основная часть логики приложения RAG — это ряд шагов в цепочке. Для оценки и отладки качества необходимо реализовать инструментирование, которое отслеживает входные и выходные данные цепочки, а также каждый шаг цепочки, а также связанные с ним входные и выходные данные. Инструментирование, наложенное на месте, должно работать так же, как в разработке и производстве.

В Databricks трассировка MLflow предоставляет эту возможность. С помощью ведения журнала трассировки MLflow вы инструментируете свой код в процессе разработки и в рабочей среде, получая одинаковые трассировки. Производственные трассировки регистрируются как часть таблицы выводов.

Пользовательский интерфейс проверки заинтересованных сторон

Чаще всего в качестве разработчика вы не являетесь экспертом по домену в содержимом разрабатываемого приложения. Чтобы получить отзывы от специалистов по работе с людьми, которые могут оценить качество выходных данных приложения, вам нужен интерфейс, позволяющий им взаимодействовать с ранними версиями приложения и предоставлять подробные отзывы. Кроме того, необходимо загрузить конкретные выходные данные приложений для заинтересованных лиц, чтобы оценить их качество.

Этот интерфейс должен отслеживать выходные данные приложения и связанные отзывы структурированным образом, сохраняя полную трассировку приложения и подробные отзывы в таблице данных.

В Databricks приложение проверки оценки агента предоставляет эту возможность.

Платформа метрик качества, стоимости и задержки

Вам нужен способ определить метрики, которые комплексно измеряют качество каждого компонента вашей цепочки и комплексного приложения. В идеале платформа предоставит набор стандартных метрик из коробки, помимо поддержки настройки, чтобы можно было добавить метрики, которые проверяют конкретные аспекты качества, уникальные для вашего бизнеса.

В Databricks оценка агента предоставляет встроенную реализацию, используя размещенные модели судьи LLM для получения необходимых метрик качества, затрат и задержки.

Ремень оценки

Вам нужен способ быстро и эффективно получить выходные данные из цепочки для каждого вопроса в наборе оценки, а затем оценить каждый результат на соответствующих метриках. Это использование должно быть максимально эффективным, так как вы будете выполнять оценку после каждого эксперимента, который вы пытаетесь улучшить качество.

В Databricks оценка агента предоставляет средства оценки, интегрированные с MLflow.

Управление наборами для оценки

Ваш набор оценки — это живой набор вопросов, которые будут обновляться в течение жизненного цикла разработки и рабочей среды приложения.

В Databricks можно управлять оценочным набором в виде Delta Table. При оценке с помощью MLflow MLflow автоматически регистрирует моментальный снимок используемой версии набора вычислений.

Платформа отслеживания экспериментов

Во время разработки приложений вы попытаетесь выполнить множество различных экспериментов. Платформа отслеживания экспериментов позволяет регистрировать каждый эксперимент и отслеживать метрики и другие эксперименты.

В Databricks MLflow предоставляет возможности отслеживания экспериментов.

Платформа параметризации цепочки

Во многих экспериментах требуется хранить константу кода цепочки при итерации различных параметров, используемых кодом. Вам нужна платформа, которая позволяет сделать это.

В Databricks конфигурация модели MLflow предоставляет эти возможности.

Мониторинг через Интернет

После развертывания вам потребуется способ отслеживания работоспособности приложения и постоянного качества, затрат и задержки.

В Databricks служба моделей предоставляет мониторинг работоспособности приложений и Мониторинг Lakehouse предоставляет исходящие данные на панель мониторинга и отслеживает качество, затраты и задержку.

< Предыдущая статья: оценка производительности

Далее: разработка на основе оценки >

Поделиться через