Что такое «семантическая сегментация» по сравнению с «сегментацией» и «разметкой сцены»?

97

Семантическая сегментация - это просто плеоназм или есть разница между «семантической сегментацией» и «сегментацией»? Есть ли разница между «маркировкой сцены» или «парсингом сцены»?

В чем разница между пиксельной и пиксельной сегментацией?

(Дополнительный вопрос: когда у вас есть такая пиксельная аннотация, получаете ли вы обнаружение объектов бесплатно или еще есть чем заняться?)

Пожалуйста, дайте источник ваших определений.

Источники, использующие «семантическую сегментацию»

  • Джонатан Лонг, Эван Шелхамер, Тревор Даррелл: полностью сверточные сети для семантической сегментации . CVPR, 2015 г. и PAMI, 2016 г.
  • Хон, Сынхун, Хён У Но и Бохён Хан: «Разделенная глубокая нейронная сеть для полууправляемой семантической сегментации». Препринт arXiv arXiv: 1506.04924 , 2015.
  • В. Лемпицкий, А. Ведальди и А. Зиссерман: Модель пилона для семантической сегментации. В достижениях в системах обработки нейронной информации, 2011.

Источники, использующие "разметку сцены"

Источник, использующий "пиксельный уровень"

  • Пинейро, Педро О. и Ронан Коллобер: «От уровня изображения к маркировке на уровне пикселей с помощью сверточных сетей». Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2015 г. (см. Http://arxiv.org/abs/1411.6228 )

Источник, использующий "пиксельный"

  • Ли, Хуншэн, Жуй Чжао и Сяоган Ван: «Высокоэффективное прямое и обратное распространение сверточных нейронных сетей для попиксельной классификации». Препринт arXiv arXiv: 1412.4526 , 2014.

Google Ngrams

«Семантическая сегментация», кажется, в последнее время используется больше, чем «разметка сцены».

введите описание изображения здесь

Мартин Тома
источник
Другие термины, которые кажутся очень похожими: (попиксельная) классификация / маркировка
Мартин Тома,
12
Действительно интересно, что @MartinThoma имеет препринт arXiv, посвященный семантической сегментации, опубликованный почти через 6 месяцев после того, как задали вопрос [ссылка] ( arxiv.org/pdf/1602.06541.pdf ). Хорошая работа!
Мохамед Хасан

Ответы:

92

«сегментация» - это разделение изображения на несколько «связанных» частей, но без какой-либо попытки понять, что эти части представляют. Одна из самых известных работ (но определенно не первая) - это Ши и Малик «Нормализованные вырезки и сегментация изображений» PAMI 2000 . Эти работы пытаются определить «согласованность» в терминах низкоуровневых сигналов, таких как цвет, текстура и гладкость границ. Вы можете проследить эти работы до теории гештальта. .

С другой стороны, «семантическая сегментация» пытается разбить изображение на семантически значимые части, и классифицировать каждую часть в один из заранее определенных классов. Вы также можете достичь той же цели, классифицируя каждый пиксель (а не все изображение / сегмент). В этом случае вы выполняете классификацию по пикселям, что приводит к тому же конечному результату, но немного по другому пути ...

Итак, я полагаю, вы можете сказать, что «семантическая сегментация», «разметка сцены» и «пиксельная классификация» в основном пытаются достичь одной и той же цели: семантического понимания роли каждого пикселя в изображении. Вы можете пойти разными путями для достижения этой цели, и эти пути приводят к небольшим нюансам в терминологии.

Шай
источник
2
Какой путь ведет к семантической сегментации, а какой - к разметке сцены или попиксельной классификации?
Мартин Тома
3
@moose вообще говоря, если вы используете инструменты и алгоритмы, появившиеся в области исследования «сегментации» (например, CRF, термины, вызывающие сглаживание и т. д.), то вы выполняете «семантическую сегментацию». С другой стороны, если вы используете инструменты и алгоритмы, используемые для классификации изображений, применяя их локально, вы, скорее всего, опишете свою работу как «пиксельное нанесение меток». Однако я не думаю, что на самом деле есть какая-то практическая разница, только семантическая: это вполне синонимы одной и той же конечной цели.
Шай
63

Я прочитал много статей об обнаружении объектов, распознавании объектов, сегментации объектов, сегментации изображений и сегментации семантических изображений, и вот мои выводы, которые могут быть неверными:

Распознавание объектов: в данном изображении вы должны обнаружить все объекты (ограниченный класс объектов зависит от вашего набора данных), локализовать их с помощью ограничивающей рамки и пометить эту ограничивающую рамку меткой. На изображении ниже вы увидите простой результат распознавания современного объекта.

распознавание объекта

Обнаружение объектов: это похоже на распознавание объектов, но в этой задаче у вас есть только два класса классификации объектов, что означает ограничивающие прямоугольники объекта и ограничивающие прямоугольники не объекты. Например, обнаружение автомобилей: вы должны обнаруживать все автомобили на данном изображении с их ограничивающими рамками.

Обнаружение объекта

Сегментация объектов: как и при распознавании объектов, вы будете распознавать все объекты на изображении, но в вашем выводе должен отображаться этот объект, классифицирующий пиксели изображения.

сегментация объекта

Сегментация изображения: при сегментации изображения вы будете сегментировать области изображения. ваш вывод не будет маркировать сегменты, и область изображения, которая согласуется друг с другом, должна находиться в одном сегменте. Извлечение супер пикселей из изображения является примером этой задачи или сегментации переднего плана.

сегментация изображений

Семантическая сегментация: при семантической сегментации вы должны пометить каждый пиксель классом объектов (Автомобиль, Человек, Собака, ...) и не-объектами (Вода, Небо, Дорога, ...). Другими словами, в семантической сегментации вы помечаете каждую область изображения.

семантическая сегментация

Я думаю, что маркировка на уровне пикселей и на уровне пикселей в основном одинакова, может быть сегментация изображения или семантическая сегментация. Я так же ответил на ваш вопрос по этой ссылке .

e_soroush
источник
8
Я бы также добавил сегментацию экземпляров, то есть разделение между экземплярами одного и того же объекта
Alex
1
Я бы сказал, что «распознавание изображений» является синонимом «классификации изображений», а не «обнаружения изображений». Речь идет о распознавании одного или нескольких объектов на изображении и возможности определить, присутствует ли он. Если мы также хотим знать, где он находится, нам нужно будет обнаруживать объекты с помощью ограничивающих рамок. Кроме того, я не вижу причин, по которым детектор объектов должен обнаруживать только один класс.
pietz
Отчасти согласен с тобой. Я не упомянул, что такое распознавание изображений, поэтому распознавание и классификация изображений могут означать одно и то же. Однако обнаружение объектов в основном используется для задач двух классов и распознавание объектов для нескольких классов. Как бы то ни было, у меня нет предела своему ответу, это просто моя идея, когда я прочитал какую-то статью около трех лет назад! Ура!
e_soroush
Не могли бы вы рассказать о некоторых местах, откуда вы читаете?
qarthandso
36

Предыдущие ответы действительно хороши, я хотел бы отметить еще несколько дополнений:

Сегментация объекта

Одна из причин, по которой он потерял популярность в исследовательском сообществе, заключается в том, что он проблематично расплывчатый. Сегментация объектов раньше просто означала нахождение одного или небольшого количества объектов на изображении и рисование границы вокруг них, и для большинства целей вы все равно можете предположить, что это означает именно это. Однако его также начали использовать для обозначения сегментации капель, которые могут быть объектами, сегментации объектов. из фона. (теперь чаще называется вычитанием фона или сегментацией фона или обнаружением переднего плана), и даже в некоторых случаях используются взаимозаменяемо с распознаванием объектов с использованием ограничивающих рамок (это быстро прекратилось с появлением глубоких нейросетевых подходов к распознаванию объектов, но ранее распознавание объектов также могло означает просто пометить все изображение объектом в нем).

Что делает «сегментацию» «семантической»?

Simpy, каждому сегменту или, в случае глубоких методов, каждому пикселю присваивается метка класса на основе категории. Сегментация в целом - это просто разделение изображения по какому-то правилу. Сегментация со смещением , например, с очень высокого уровня разделяет данные в соответствии с изменениями энергии изображения. Вырезать графикСегментация на основе аналогичным образом не изучается, а напрямую выводится из свойств каждого изображения отдельно от остальных. Более поздние методы (на основе нейронных сетей) используют пиксели, которые помечены, чтобы научиться определять локальные особенности, связанные с определенными классами, а затем классифицировать каждый пиксель на основе того, какой класс имеет наибольшую достоверность для этого пикселя. Таким образом, «разметка пикселей» на самом деле является более честным названием задачи, а компонент «сегментации» возникает на стадии становления.

Сегментация экземпляра

Возможно, наиболее сложное, актуальное и оригинальное значение сегментации объектов, «сегментация экземпляра» означает сегментацию отдельных объектов в пределах сцены, независимо от того, относятся ли они к одному типу. Однако одна из причин, по которой это так сложно, состоит в том, что с точки зрения видения (и в некотором смысле философского) не совсем ясно, что делает экземпляр «объект». Части тела - объекты? Следует ли вообще сегментировать такие «частичные объекты» алгоритмом сегментации экземпляра? Должны ли они быть сегментированы только в том случае, если они рассматриваются отдельно от целого? Как насчет составных объектов, если две вещи четко соединены, но могут быть разделены на один или два объекта (камень, приклеенный к верхушке палки, топор, молот, или просто палка и камень, если они не сделаны должным образом?). Кроме того, это не Ясно, как различать экземпляры. Является ли завещание отдельным экземпляром от других стен, к которым оно прикреплено? В каком порядке следует считать инстансы? Как они появляются? Близость к точке зрения? Несмотря на эти трудности, сегментация объектов по-прежнему имеет большое значение, потому что, будучи людьми, мы постоянно взаимодействуем с объектами независимо от их «метки класса» (используя случайные объекты вокруг вас в качестве бумажных гирь, сидя на вещах, которые не являются стульями), и поэтому некоторые наборы данных действительно пытаются решить эту проблему, но основная причина, по которой проблеме пока не уделяется много внимания, заключается в том, что она недостаточно четко определена. введите описание изображения здесь

Парсинг сцены / маркировка сцены

Парсинг сцены - это строго сегментированный подход к маркировке сцены, который также имеет свои собственные проблемы с нечеткостью. Исторически обозначение сцены означало разделение всей «сцены» (изображения) на сегменты и присвоение им ярлыка класса. Однако оно также использовалось для обозначения присвоения меток классов областям изображения без их явной сегментации. Что касается сегментации, «семантическая сегментация» не подразумевает разделения всей сцены. Для семантической сегментации алгоритм предназначен для сегментации только известных ему объектов и будет наказан своей функцией потерь за маркировку пикселей, не имеющих метки. Например, набор данных MS-COCO - это набор данных для семантической сегментации, в котором сегментированы только некоторые объекты. Образцы изображений MS-COCO

физинкуб
источник