Я читал эти слова во многих публикациях, и я хотел бы получить несколько хороших определений для этих терминов, которые проясняют, в чем разница между обнаружением объекта и семантической сегментацией по сравнению с локализацией. Было бы хорошо, если бы вы могли дать источники для ваших определений.
terminology
computer-vision
Мартин Тома
источник
источник
Ответы:
Я прочитал много статей об обнаружении объектов, распознавании объектов, сегментации объектов, сегментации изображений и сегментации семантических изображений, и вот мои выводы, которые могут быть неверными:
Распознавание объектов: в данном изображении вы должны обнаружить все объекты (ограниченный класс объектов зависит от вашего набора данных), локализовать их с помощью ограничительной рамки и пометить эту ограничительную рамку с помощью метки. На изображении ниже вы увидите простой вывод информации о состоянии объекта распознавания.
Обнаружение объектов: это похоже на распознавание объектов, но в этой задаче у вас есть только два класса классификации объектов, которые означают ограничивающие прямоугольники объекта и не ограничивающие прямоугольники объекта. Например, Обнаружение автомобиля: вы должны Обнаружить все автомобили на заданном изображении с помощью их ограничительных рамок.
Сегментация объектов: Как и при распознавании объектов, вы распознаете все объекты на изображении, но в выходных данных должен отображаться объект, классифицирующий пиксели изображения.
Сегментация изображения: при сегментации изображения вы будете сегментировать области изображения. Ваш вывод не будет помечать сегменты и области изображения, которые согласуются друг с другом, должны быть в одном сегменте. Извлечение суперпикселей из изображения является примером этой задачи или сегментации фона на переднем плане.
Семантическая сегментация: В семантической сегментации вы должны пометить каждый пиксель классом объектов (Автомобиль, Человек, Собака, ...) и не-объектами (Вода, Небо, Дорога, ...). Другими словами, в семантической сегментации вы будете обозначать каждую область изображения.
источник
Поскольку эта проблема до сих пор не совсем ясна даже в 2019 году и может помочь новым учащимся по ML, вот очень хорошее изображение, показывающее различия:
(локализация - это ограничивающая рамка вокруг класса «овцы» после классификации изображения) источник: Towardsdatascience.com
источник
Я считаю, что просто «локализация» означает «классификация отдельного объекта + локализация с использованием 2D или 3D ограничивающей рамки».
«Обнаружение объекта» - это локализация + классификация всех экземпляров известных классов объектов, о которых идет речь.
Семантическая сегментация - это в основном классификация по пикселям.
Также были использованы метрики (источник: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )
Точность - это отношение точно идентифицированных объектов к общему числу прогнозируемых объектов (отношение истинных положительных сторон к истинным положительным плюсам ложных положительных результатов).
Напомним, это отношение точно идентифицированных объектов к общему количеству реальных объектов на изображениях (отношение истинных позитивов к истинным позитивам плюс истинные негативы).
mAP: упрощенная средняя оценка средней точности, основанная на произведении точности и отзыва для DetectNet. Это хорошая комбинированная мера того, насколько сеть чувствительна к интересующим объектам и насколько хорошо она избегает ложных срабатываний.
источник
Термин локализация неясен. Поэтому я буду обсуждать термины обнаружения объектов и семантической сегментации.
При обнаружении объекта каждый пиксель изображения классифицируется независимо от того, принадлежит он к определенному классу (например, лицу) или нет. На практике это упрощается путем группировки пикселей вместе, чтобы сформировать ограничивающие рамки, поэтому проблема сводится к решению, является ли ограничивающий прямоугольник плотно прилегающим к объекту. Поскольку пиксели могут принадлежать нескольким объектам (например, лицу, глазу), они могут содержать несколько меток одновременно.
С другой стороны, семантическая сегментация включает в себя назначение меток классов каждому пикселю изображения. Хотя они обеспечивают лучшую точность локализации, так как не включают в себя упрощение ограничивающей рамки, они строго применяют одну метку на пиксель.
источник
Семантическая сегментация. Это задача кластеризации частей изображений, которые принадлежат к одному и тому же классу объектов. например: обнаружение дорожных знаков
источник