В чем разница между обнаружением объектов, семантической сегментацией и локализацией?

23

Я читал эти слова во многих публикациях, и я хотел бы получить несколько хороших определений для этих терминов, которые проясняют, в чем разница между обнаружением объекта и семантической сегментацией по сравнению с локализацией. Было бы хорошо, если бы вы могли дать источники для ваших определений.

Мартин Тома
источник
1
Оформите
Шату

Ответы:

18

Я прочитал много статей об обнаружении объектов, распознавании объектов, сегментации объектов, сегментации изображений и сегментации семантических изображений, и вот мои выводы, которые могут быть неверными:

Распознавание объектов: в данном изображении вы должны обнаружить все объекты (ограниченный класс объектов зависит от вашего набора данных), локализовать их с помощью ограничительной рамки и пометить эту ограничительную рамку с помощью метки. На изображении ниже вы увидите простой вывод информации о состоянии объекта распознавания.

распознавание объекта

Обнаружение объектов: это похоже на распознавание объектов, но в этой задаче у вас есть только два класса классификации объектов, которые означают ограничивающие прямоугольники объекта и не ограничивающие прямоугольники объекта. Например, Обнаружение автомобиля: вы должны Обнаружить все автомобили на заданном изображении с помощью их ограничительных рамок.

Обнаружение объекта

Сегментация объектов: Как и при распознавании объектов, вы распознаете все объекты на изображении, но в выходных данных должен отображаться объект, классифицирующий пиксели изображения.

сегментация объекта

Сегментация изображения: при сегментации изображения вы будете сегментировать области изображения. Ваш вывод не будет помечать сегменты и области изображения, которые согласуются друг с другом, должны быть в одном сегменте. Извлечение суперпикселей из изображения является примером этой задачи или сегментации фона на переднем плане.

сегментация изображения

Семантическая сегментация: В семантической сегментации вы должны пометить каждый пиксель классом объектов (Автомобиль, Человек, Собака, ...) и не-объектами (Вода, Небо, Дорога, ...). Другими словами, в семантической сегментации вы будете обозначать каждую область изображения.

семантическая сегментация

e_soroush
источник
хороший ответ. Я отмечу, что cs231n.stanford.edu/slides/winter1516_lecture8.pdf slide 8 использует другое определение обнаружения объектов, которое обнаруживает несколько классов и несколько экземпляров в одном классе (я не знаю, существует ли единственное принятое определение или нет, так что это может быть просто из-за двусмысленности).
Кит
1
Сегментация экземпляров, как семантическая сегментация, но нужно пометить коров как отдельных
титус
2
Слайды из первого комментария находятся здесь сейчас: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
Шату
5

Поскольку эта проблема до сих пор не совсем ясна даже в 2019 году и может помочь новым учащимся по ML, вот очень хорошее изображение, показывающее различия:

(локализация - это ограничивающая рамка вокруг класса «овцы» после классификации изображения) источник: https://towardsdatascience.com/detection-and-segmentation-through-convnets-47aa42de27ea источник: Towardsdatascience.com

fogx
источник
3

Я считаю, что просто «локализация» означает «классификация отдельного объекта + локализация с использованием 2D или 3D ограничивающей рамки».

«Обнаружение объекта» - это локализация + классификация всех экземпляров известных классов объектов, о которых идет речь.

Семантическая сегментация - это в основном классификация по пикселям.

Также были использованы метрики (источник: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )

Точность - это отношение точно идентифицированных объектов к общему числу прогнозируемых объектов (отношение истинных положительных сторон к истинным положительным плюсам ложных положительных результатов).

Напомним, это отношение точно идентифицированных объектов к общему количеству реальных объектов на изображениях (отношение истинных позитивов к истинным позитивам плюс истинные негативы).

mAP: упрощенная средняя оценка средней точности, основанная на произведении точности и отзыва для DetectNet. Это хорошая комбинированная мера того, насколько сеть чувствительна к интересующим объектам и насколько хорошо она избегает ложных срабатываний.

Андрей Покровский
источник
2

Термин локализация неясен. Поэтому я буду обсуждать термины обнаружения объектов и семантической сегментации.

При обнаружении объекта каждый пиксель изображения классифицируется независимо от того, принадлежит он к определенному классу (например, лицу) или нет. На практике это упрощается путем группировки пикселей вместе, чтобы сформировать ограничивающие рамки, поэтому проблема сводится к решению, является ли ограничивающий прямоугольник плотно прилегающим к объекту. Поскольку пиксели могут принадлежать нескольким объектам (например, лицу, глазу), они могут содержать несколько меток одновременно.

С другой стороны, семантическая сегментация включает в себя назначение меток классов каждому пикселю изображения. Хотя они обеспечивают лучшую точность локализации, так как не включают в себя упрощение ограничивающей рамки, они строго применяют одну метку на пиксель.

facedetector
источник
-2

Семантическая сегментация. Это задача кластеризации частей изображений, которые принадлежат к одному и тому же классу объектов. например: обнаружение дорожных знаков

Gan
источник
2
Но обнаружение дорожных знаков - это обнаружение объекта. Можете ли вы объяснить разницу?
reinierpost