Я знаю, что было много достижений в отношении распознавания изображений, классификации изображений и т. Д. С глубокими, сверточными нейронными сетями.
Но если я обучу сеть, скажем, PNG-изображениям, будет ли она работать только для изображений, закодированных таким образом? Какие другие свойства изображения влияют на это? (альфа-канал, чересстрочная развертка, разрешение и т. д.?)
neural-networks
deep-learning
image-processing
Фелипе Алмейда
источник
источник
Ответы:
Краткий ответ - НЕТ .
Формат, в котором закодировано изображение, имеет отношение к его качеству. Нейронные сети - это по сути математические модели, которые выполняют множество операций (матричные умножения, поэлементные сложения и функции отображения). Нейронная сеть видит в качестве входных данных тензор (т.е. многомерный массив). Его форма обычно 4-D (количество изображений в пакете, высота изображения, ширина изображения, количество каналов).
Разные форматы изображений (особенно с потерями) могут создавать разные входные массивы, но строго говоря, нейронные сети видят массивы на своих входах, а НЕ изображения.
источник
Хотя ответ Djib2011 правильный, я понимаю, что ваш вопрос более сфокусирован на том, как качество / свойства изображения влияют на обучение нейронной сети в целом. В этой теме мало исследований (afaik), но в будущем, возможно, будет больше исследований по этому вопросу. Я только нашел эту статью на нем. Проблема в настоящее время состоит в том, что это больше проблема, возникающая в практических приложениях, а не в области научных исследований. Я помню один текущий подкаст, где исследователи наблюдали, что даже камера, которая использовалась для съемки, могла иметь большой эффект.
источник
Это рифф на первый ответ от Djib2011. Краткий ответ должен быть нет. Длиннее - во-первых, фотографии всегда кодируются как тензор следующим образом. Изображение представляет собой количество пикселей. Если считается, что фотография имеет m строк и n столбцов, каждый пиксель определяется своим расположением строки и столбца, то есть парой (m, n). В частности, есть m * n пикселей, которые очень велики даже для «маленьких» фотографий. Каждый пиксель фотографии кодируется числом от нуля до единицы (интенсивность черноты), если фотография черно-белая. Кодируется тремя числами (интенсивность RGB), если фотография цветная. Таким образом, получается тензор 1xmxn или 3xmxn. Распознавание изображений осуществляется с помощью CNN, которые, используя тот факт, что фотографии не сильно меняются от пикселя к пикселю, сжимаютданные через фильтры и пул. Таким образом, дело в том, что работа CNN заключается в сжатии невероятно большого количества точек данных (или функций) фотографии в меньшее количество значений. Итак, в каком бы формате вы ни начинали, CNN начинает с дальнейшего сжатия данных фотографии. Отсюда и независимость как таковая от размера представления фотографии.
Однако CNN потребует, чтобы все изображения, проходящие через него, имели одинаковый размер. Таким образом, эта зависимость будет меняться в зависимости от того, как изображение сохранено. Кроме того, поскольку разные форматы файлов одинакового размера дают разные значения для их тензоров, нельзя использовать одну и ту же модель CNN для идентификации фотографий, хранящихся разными методами.
источник