Кластеризация
Кластеризация — это форма неуправляемого машинного обучения, в которой наблюдения группируются в кластеры на основе сходств в их значениях данных или функциях. Этот вид машинного обучения считается неконтролируемым, так как он не использует ранее известные значения меток для обучения модели. В модели кластеризация метка — это кластер, которому назначается наблюдение, только на основе его функций.
Пример — кластеризация
Например, предположим, ботаник наблюдает пример цветов и записывает количество листьев и лепестков на каждом цветке:
В наборе данных нет известных меток. Цель заключается в том, чтобы не определять различные типы (виды) цветка; просто группировать похожие цветы вместе на основе количества листьев и лепестков.
Листья (x1) | Лепестки (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 |
2 | 3 |
2 | 7 |
2 | 8 |
Обучение модели кластеризации
Существует несколько алгоритмов, которые можно использовать для кластеризации. Чаще всего применяется кластеризация методом K-средних, которая состоит из следующих этапов.
- Значения функции (x) векторизированы для определения n-мерных координат (где n — число признаков). В примере цветка у нас есть два признака: количество листьев (x1) и количество лепестков (x2). Таким образом, вектор признаков имеет две координаты, которые можно использовать для концептуального построения точек данных в двухмерном пространстве ([x1,x 2])
- Вы решите, сколько кластеров вы хотите использовать для группировки цветов - вызовите это значение k. Например, чтобы создать три кластера, используется значение k, равное 3. После этого точки k строятся по случайным координатам. Эти точки становятся центрами для каждого кластера, поэтому они называются центроидами.
- Каждая точка данных (в данном случае цветок) назначается ближайшему центроиду.
- Каждый центроид перемещается в центр назначенных ему точек данных на основе среднего расстояния между точками.
- После перемещения центроида точки данных теперь могут быть ближе к другому центроиду, поэтому точки данных переназначаются кластерам на основе нового ближайшего центроида.
- Действия по перемещению центроидов и перемещению кластера повторяются до тех пор, пока кластеры не станут стабильными или предопределенным максимальным числом итераций.
Этот процесс показан на приведенной ниже анимации.
Оценка модели кластеризация
Так как нет известной метки, с которой можно сравнить прогнозируемые назначения кластера, оценка модели кластеризация основана на том, насколько хорошо результирующие кластеры отделены друг от друга.
Существует несколько метрик, которые можно использовать для оценки разделения кластера, в том числе:
- Среднее расстояние к центру кластера: как близко, в среднем, каждая точка в кластере — центроид кластера.
- Среднее расстояние к другому центру: как близко, в среднем, каждая точка в кластере — центроид всех остальных кластеров.
- Максимальное расстояние к центру кластера: максимальное расстояние между точкой в кластере и его центроидом.
- Силуэт: значение от -1 до 1, которое суммирует соотношение расстояния между точками в одном кластере и точками в разных кластерах (ближе к 1, чем лучше разделение кластера).