Что такое модели классификации?
Модели классификации используются для принятия решений или назначения элементов в категории. В отличие от модулей регрессии, которые выводят непрерывные числа, такие как высота или вес, модели классификации выводят логические значения (либо true
, либо false
), либо категориальные решения, такие как apple
, banana
или cherry
.
Существует множество типов моделей классификации. Некоторые работают аналогично классическим регрессиям, а другие — по-разному. Одна из лучших моделей для обучения изначально называется логистической регрессии.
Что такое логистическая регрессия?
Логистическая регрессия — это тип классификации модели, которая работает аналогично линейной регрессии. Разница между этой и линейной регрессией — это форма кривой. Хотя простая линейная регрессия описывает прямую линию, модели логистической регрессии описывают s-образную кривую.
Логистическая регрессия лучше оценивает логические исходы, чем линейная регрессия, так как логистическая кривая всегда создает значение от 0 (ложь) до 1 (истина). Все между этими двумя значениями можно рассматривать как вероятность.
Например, предположим, что мы пытаемся предсказать, может ли лавина произойти сегодня. Если наша модель логистической регрессии дает нам значение 0,3, то он оценивает, что существует 30% вероятность лавины.
Преобразование выходных данных в категории
Поскольку логистическая регрессия дает нам эти вероятности, а не простые истинные или ложные значения, нам необходимо предпринять дополнительные шаги для преобразования результата в категорию. Самый простой способ сделать это преобразование — применить пороговое значение. Например, на следующем графе пороговое значение имеет значение 0,5. Это пороговое значение означает, что любое значение y ниже 0,5 преобразуется в false (левое нижнее поле), а любое значение выше 0,5 преобразуется в значение true — правое верхнем поле.
Глядя на график, мы видим, что если функция ниже 5, вероятность меньше 0,5 и преобразуется в false. Значения признаков, превышающие 5, дают вероятности более 0,5 и преобразуются в true.
Это заметно, что логистическая регрессия не должна быть ограничена истинным или ложным результатом— он также может использоваться, где существует три или более потенциальных результатов, таких как rain
, snow
или sun
. Этот тип результата требует слегка более сложной настройки, называемой мультиномиальной логистической регрессией. Хотя мы не практикуем мультиномиальную логистическую регрессию во время следующих нескольких упражнений, стоит рассмотреть для ситуаций, когда прогнозы не двоичны.
Также стоит отметить, что логистическая регрессия может использовать несколько входных функций: больше в этом случае в ближайшее время.