Метрики оценки для моделей рабочих процессов оркестрации
Набор данных делится на две части: набор для обучения и набор для тестирования. Набор для обучения используется для обучения модели, а набор для тестирования — для расчета производительности и оценки модели после обучения. Набор для тестирования не представляется модели в процессе обучения, чтобы протестировать ее на новых данных.
Оценка модели автоматически активируется после успешного завершения обучения. Процесс оценки прежде всего применяет обученную модель для прогнозирования определяемых пользователем намерений по речевым фрагментам из тестового набора, а затем сравнивает результаты с предоставленными тегами (которые содержат уже известные значения). Результаты позволяют оценить производительность модели. Во время оценки в рабочем процессе оркестрации используются следующие метрики:
Точность: измеряет, насколько точна модель. Представляет собой соотношение между правильно определенными положительными (истинноположительными) результатами и всеми определенными положительными результатами. Метрика точности показывает, сколько из спрогнозированных классов правильно помечено метками.
Precision = #True_Positive / (#True_Positive + #False_Positive)
Полнота: измеряет способность модели прогнозировать фактические положительные классы. Это отношение между спрогнозированными истинноположительными результатами и фактически помеченными значениями. Метрика полноты показывает, сколько из прогнозируемых классов определено верно.
Recall = #True_Positive / (#True_Positive + #False_Negatives)
F-мера: зависит от точности и полноты. Она необходима при поиске баланса между точностью и полнотой.
F1 Score = 2 * Precision * Recall / (Precision + Recall)
Точность, полнота и показатель F1 вычисляются для следующих объектов:
- Каждое намерение по отдельности (оценка на уровне намерения)
- Для модели в совокупности (оценка на уровне модели)
Определения точности, полноты и оценки являются одинаковыми для оценок на уровне намерения и на уровне модели. Но счетчики истинноположительных, ложноположительных и ложноотрицательных значений могут различаться. Например, рассмотрим следующий текст.
Пример
- Отправьте в ответе искреннюю благодарность
- Позвонить моему другу
- Привет
- Доброе утро!
Используются следующие намерения: CLUEmail и Greeting
Модель может делать следующие прогнозы:
Фраза | Прогнозируемое намерение | Фактическое намерение |
---|---|---|
Отправьте в ответе искреннюю благодарность | CLUEmail | CLUEmail |
Позвонить моему другу | Приветствие | CLUEmail |
Привет | CLUEmail | Приветствие |
Goodmorning | Приветствие | Приветствие |
Оценка на уровне намерения для намерения CLUEmail
Ключ | Count | Описание |
---|---|---|
Истинный положительный результат | 1 | Для речевого фрагмента 1 был сделан правильный прогноз CLUEmail. |
Ложный положительный результат | 1 | Для речевого фрагмента 3 был сделан ошибочный прогноз CLUEmail. |
Ложный отрицательный результат | 1 | Для речевого фрагмента 2 был сделан ошибочный прогноз Greeting. |
Точность = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Полнота = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
Оценка F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Оценка на уровне намерения для намерения Greeting
Ключ | Count | Описание |
---|---|---|
Истинный положительный результат | 1 | Для речевого фрагмента 4 был сделан правильный прогноз Greeting. |
Ложный положительный результат | 1 | Для речевого фрагмента 2 был сделан ошибочный прогноз Greeting. |
Ложный отрицательный результат | 1 | Для речевого фрагмента 3 был сделан ошибочный прогноз CLUEmail. |
Точность = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Полнота = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
Оценка F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Вычисление на уровне модели для общей модели
Ключ | Count | Описание |
---|---|---|
Истинный положительный результат | 2 | Сумма истинно положительных результатов для всех намерений |
Ложный положительный результат | 2 | Сумма ложноположительных результатов для всех намерений |
Ложный отрицательный результат | 2 | Сумма ложноотрицательных результатов для всех намерений |
Точность = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5
Полнота = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5
Оценка F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Матрица ошибок
Матрица неточностей — это матрица NxN для оценки производительности модели, где N — это число намерений. Матрица сравнивает фактические теги с тегами, прогнозируемыми моделью. Это дает целостное представление о том, насколько хорошо работает модель и какие типы ошибок она делает.
Матрицу неточностей можно использовать для определения намерений, которые слишком похожи и часто извлекаются ошибочно, так как являются неоднозначными. В этом случае рекомендуется объединять эти намерения. Если это невозможно, попробуйте добавить больше примеров с тегами для обоих намерений, чтобы модели было проще их различить.
Метрики оценки на уровне модели можно вычислить на основе матрицы неточностей:
- Истинноположительный результат модели — это сумма истинноположительных значений для всех намерений.
- Ложноположительный результат модели — это сумма ложноположительных значений для всех намерений.
- Ложноотрицательный результат модели — это сумма ложноотрицательных значений для всех намерений.