Влияет ли формат изображения (png, jpg, gif) на обучение нейронной сети распознавания изображений?

23

Я знаю, что было много достижений в отношении распознавания изображений, классификации изображений и т. Д. С глубокими, сверточными нейронными сетями.

Но если я обучу сеть, скажем, PNG-изображениям, будет ли она работать только для изображений, закодированных таким образом? Какие другие свойства изображения влияют на это? (альфа-канал, чересстрочная развертка, разрешение и т. д.?)

Фелипе Алмейда
источник
2
У меня недостаточно опыта со статистикой изображений, чтобы дать уверенный ответ, но я ожидаю, что разные модели используют совершенно разные схемы для кодирования изображений в функции, на некоторые из которых будут влиять сжатие JPEG с потерями, альфа-каналы и т. Д. ., и некоторые из которых не будут, с деталями, зависящими от модели. Я знаю, что существуют как модели, которые рассматривают каждый пиксель как элемент, так и модели, которые делят изображения на области и используют свойства областей как элементы.
Кодиолог

Ответы:

20

Краткий ответ - НЕТ .

Формат, в котором закодировано изображение, имеет отношение к его качеству. Нейронные сети - это по сути математические модели, которые выполняют множество операций (матричные умножения, поэлементные сложения и функции отображения). Нейронная сеть видит в качестве входных данных тензор (т.е. многомерный массив). Его форма обычно 4-D (количество изображений в пакете, высота изображения, ширина изображения, количество каналов).

Разные форматы изображений (особенно с потерями) могут создавать разные входные массивы, но строго говоря, нейронные сети видят массивы на своих входах, а НЕ изображения.

Djib2011
источник
4

Хотя ответ Djib2011 правильный, я понимаю, что ваш вопрос более сфокусирован на том, как качество / свойства изображения влияют на обучение нейронной сети в целом. В этой теме мало исследований (afaik), но в будущем, возможно, будет больше исследований по этому вопросу. Я только нашел эту статью на нем. Проблема в настоящее время состоит в том, что это больше проблема, возникающая в практических приложениях, а не в области научных исследований. Я помню один текущий подкаст, где исследователи наблюдали, что даже камера, которая использовалась для съемки, могла иметь большой эффект.

Bobipuegi
источник
Не могли бы вы указать мне на подкаст, пожалуйста?
Дэвид Эрнст
Это одночасовой эпизод «говорящих машин», где они обсуждают с исследователем, практикующим машинное обучение в Африке (примерно от середины до конца), ссылка на iTunes: itunes.apple.com/de/podcast/talking-machines/…
Бобипуэги
2

Это рифф на первый ответ от Djib2011. Краткий ответ должен быть нет. Длиннее - во-первых, фотографии всегда кодируются как тензор следующим образом. Изображение представляет собой количество пикселей. Если считается, что фотография имеет m строк и n столбцов, каждый пиксель определяется своим расположением строки и столбца, то есть парой (m, n). В частности, есть m * n пикселей, которые очень велики даже для «маленьких» фотографий. Каждый пиксель фотографии кодируется числом от нуля до единицы (интенсивность черноты), если фотография черно-белая. Кодируется тремя числами (интенсивность RGB), если фотография цветная. Таким образом, получается тензор 1xmxn или 3xmxn. Распознавание изображений осуществляется с помощью CNN, которые, используя тот факт, что фотографии не сильно меняются от пикселя к пикселю, сжимаютданные через фильтры и пул. Таким образом, дело в том, что работа CNN заключается в сжатии невероятно большого количества точек данных (или функций) фотографии в меньшее количество значений. Итак, в каком бы формате вы ни начинали, CNN начинает с дальнейшего сжатия данных фотографии. Отсюда и независимость как таковая от размера представления фотографии.
Однако CNN потребует, чтобы все изображения, проходящие через него, имели одинаковый размер. Таким образом, эта зависимость будет меняться в зависимости от того, как изображение сохранено. Кроме того, поскольку разные форматы файлов одинакового размера дают разные значения для их тензоров, нельзя использовать одну и ту же модель CNN для идентификации фотографий, хранящихся разными методами.

Мех
источник