Передача обучения

Завершено

В жизни часто проще учиться новому навыку, если у вас уже есть опыт в аналогичном, переносимом навыке. Например, вероятно, проще научить кого-то, как ездить на автобусе, если они уже узнали, как ездить на машине. Водитель может опираться на навыки вождения, которые они уже узнали в машине, и применить их к вождению автобуса.

Тот же принцип можно применить к моделям глубокого обучения с помощью метода, называемого передачи обучения.

Как работает трансферное обучение

Сверточная нейронная сеть (CNN) для классификации изображений обычно состоит из нескольких слоев, которые извлекают функции, а затем используют окончательный полностью подключенный слой для классификации изображений на основе этих функций.

CNN, состоящий из набора слоев извлечения признаков и полностью подключенного слоя прогнозирования

Концептуально эта нейронная сеть состоит из двух различных наборов слоев:

  1. Набор слоев из базовой модели, выполняющий извлечение признаков .
  2. Полностью подключенный слой, который принимает извлеченные признаки и использует их для прогнозирования класса .

Уровни извлечения признаков применяют свертальные фильтры и пул для выделения ребер, углов и других шаблонов в изображениях, которые можно использовать для их отличия, и в теории должны работать для любого набора изображений с теми же измерениями, что и входной слой сети. Слой прогнозирования сопоставляет функции с набором выходных данных, представляющих вероятности для каждой метки класса, которую вы хотите использовать для классификации изображений.

Разделив сеть на эти типы слоев, мы можем взять слои извлечения признаков из модели, которая уже обучена и добавить один или несколько слоев, чтобы использовать извлеченные функции для прогнозирования соответствующих меток классов для изображений. Этот подход позволяет вам сохранять предварительно обученные веса для слоев извлечения признаков, что означает, что вам нужно обучить только добавленные слои прогнозирования.

Существует много признанных архитектур сверточных нейронных сетей для классификации изображений, которые можно использовать в качестве базовой модели для обучения переносу, так что вы можете строить на уже выполненной кем-то работе, чтобы легко создать эффективную модель классификации изображений.