Неквадратные изображения для классификации изображений

9

У меня есть набор данных с широкими изображениями: 1760x128. Я читал учебники и книги, и в большинстве из них утверждается, что входные изображения должны быть квадратными, а если нет, то они преобразуются в квадратные, чтобы их можно было обучить уже обученным (на квадратных изображениях) cnns. Есть ли способ обучить cnn для неквадратных изображений, или я должен искать другой вариант в качестве отступа?

Вуаля
источник

Ответы:

4

Есть несколько способов решить проблему в зависимости от классификатора. Раздвижные окна - это метод, с которым я больше всего знаком, он используется для методов нейронной сети. Этот метод включает в себя получение небольшого субизображения и смещение его вверх и вниз с некоторыми перекрытиями. Некоторые проблемы включают в себя поиск оптимальных параметров сдвига и много масштабных проблем.

Окончательное обнаружение обычно определяется тем, насколько классификатор уверен в том, что каждое из подизображений принадлежит этому классу: например, большинство голосов, общая вероятность или общее расстояние от границы решения. Ниже я перечислил некоторые материалы, первый - для метода классификатора HOG, но концепции те же.

  1. Раздвижные окна для обнаружения объектов
  2. Обнаружение категории объекта: раздвижные окна
  3. Интегрированное распознавание, локализация и обнаружение OverFeat с использованием сверточных сетей
Джозеф Сантарканджело
источник
2

Это не должно вызывать никаких проблем, если вы используете CNN. Я сделал CNN для распознавания лиц, и поскольку лица обычно имеют ширину около 70% и высоту, я использовал тренировочные изображения размером 80x100 пикселей (немного больше ширины в случае, если голова была под углом). Ваши фильтры все равно должны быть квадратными.

Все эти изменения будут заключаться в том, что теперь вам нужно отслеживать ширину и высоту для ваших карт активации / пула вместо одного значения, которое сообщает вам размер. Например -

Входное изображение 80 x 100 Применить фильтр 5 x 5 свертки дает карту активаций при 76 x 96 Применить пул 2 x 2 дает карту объединенных активаций при 38 x 48

Frobot
источник