Я пытаюсь обнаружить логотип телевизионного канала внутри видеофайла, поэтому просто с помощью входного .mp4
видео определите, присутствует ли этот логотип в определенном кадре, скажем, в первом кадре, или нет.
У нас есть этот логотип заранее (хотя это может быть не тот же самый размер 100%), и местоположение всегда фиксировано.
У меня уже есть подход, основанный на сопоставлении с образцом. Но для этого требуется, чтобы шаблон был на 100% одинакового размера. Я хотел бы использовать глубокое обучение и нейронную сеть для достижения этой цели. Как я могу это сделать? Я считаю, что CNN может иметь более высокую эффективность?
Ответы:
Чтобы выполнить распознавание изображения, вы должны найти способ представить изображение с определенными функциями.
Одной из определяющих характеристик хорошего алгоритма распознавания изображений является его способность обнаруживать характерные области, то есть области, которые содержат наибольшее количество информации
В настоящее время большое внимание уделяется глубокому изучению контентной классификации изображений. Вы можете добиться достойных результатов, внедрив глубокое обучение, имея три или более слоев CNN, где каждый слой отвечает за извлечение одной или нескольких функций изображения.
источник
Поскольку это видеовход, а логотипы обычно являются стационарными, поскольку они наложены на живые или записанные кадры с помощью аппаратного или программного обеспечения, задача не является сложной. Логотипы также обычно имеют ограниченную цветовую палитру и четкие края. Особенности их шрифтов, когда они пишут слова или аббревиатуры, также обычно совпадают. Это общие черты, которые можно использовать при глубоком обучении.
Как и в случае с другим аналогичным вопросом, опубликованным этим автором, комбинация слоев LSTM и CNN может быть обучена, чтобы найти и изолировать логотип. С помощью некоторых хитростей изображений изображение за логотипом также можно реконструировать с разумной точностью и надежностью из пикселей вокруг логотипа с помощью аналогичного набора методов обучения.
Это несколько отправных точек для развития.
источник