Почему разность гауссовских масштабов инвариантна?

15

В качестве примера я буду использовать алгоритм преобразования объектов с инвариантным масштабом . SIFT создает масштабное пространство на основе масштабированной гауссовой фильтрации изображения, а затем вычисляет разницу гауссиан для определения потенциальных точек интереса. Эти точки определяются как локальные минимумы и максимумы разности гауссиан.

Утверждается, что этот подход является масштабно-инвариантным (среди других загадочных инвариантов). Почему это? Мне непонятно, почему это так.

воды
источник
Не знаю, что такое SIFT, вы можете найти это в вики en.wikipedia.org/wiki/Scale-invariant_feature_transform . «Метод Лоу для генерации элементов изображения преобразует изображение в большую коллекцию векторов элементов, каждый из которых не зависит от преобразования, масштабирования и поворота изображения, частично не зависит от изменений освещенности и устойчив к локальным геометрическим искажениям». Это объяснение?
Ниарен
Да, именно об этом я и говорю
вода
SIFT использует теорию пространства-масштаба. Однако я не понимаю, что подразумевается под «масштабной» инвариантностью в этой теории. Вы можете попробовать прочитать статьи Тони Линдеберга об этом: csc.kth.se/~tony/earlyvision.html
maximus

Ответы:

7

Термин «масштабно-инвариантный» означает следующее здесь. Допустим, у вас есть изображение I , и вы обнаружили особенность (известную точку интереса) f в некотором месте (x, y) и на некотором уровне масштаба s . Теперь предположим, что у вас есть изображение I ' , которое является уменьшенной версией I (например, с пониженной выборкой). Затем, если ваш детектор признаков не зависит от масштаба, вы должны быть в состоянии обнаружить соответствующий признак f ' в I' в соответствующем месте (x ', y') и соответствующий масштаб s ' , где (x, y, s) и (х ', у', с ') связаны с соответствующим преобразованием масштабирования.

Другими словами, если ваш масштабно-инвариантный детектор обнаружил характерную точку, соответствующую чьему-либо лицу, и затем вы увеличиваете или уменьшаете масштаб с помощью камеры в той же сцене, вы все равно должны обнаружить характерную точку на этом лице.

Конечно, вы также хотели бы иметь «дескриптор функции», который позволял бы вам сопоставить две функции, что в точности и дает вам SIFT.

Так что, рискуя еще больше сбить вас с толку, есть две вещи, которые не зависят от масштаба. Одним из них является детектор точек интереса DoG, который не зависит от масштаба, потому что он обнаруживает особый тип объектов изображения (блобов) независимо от их масштаба. Другими словами, детектор DoG обнаруживает капли любого размера. Другая инвариантная к масштабу вещь - это дескриптор объекта, который представляет собой гистограмму ориентации градиента, которая остается более или менее похожей для того же объекта изображения, несмотря на изменение масштаба.

Кстати, разность гауссианов используется здесь как приближение к фильтру Лапласа Гаусса.

Дима
источник
Вы взяли некоторую информацию из теории пространства-масштаба. Не могли бы вы описать объяснение того, что именно происходит при сравнении двух сигналов с использованием теории масштаба пространства? Линдеберг в своих работах: csc.kth.se/~tony/earlyvision.html привел несколько примеров обнаружения капель и т. Д. Как на самом деле получение производной по параметру масштаба помогает в инвариантности масштаба?
Максим
Ты прав. Я просто пытался описать интуицию теории масштабного пространства. То, что вы спрашиваете, должно быть отдельным вопросом. Я думаю, что вы говорите о том, что производные, взятые в разных масштабах, должны быть соответственно нормализованы. По мере приближения к более крупным масштабам сигнал сглаживается, поэтому его амплитуда уменьшается. Это означает, что величина производных также уменьшается. Таким образом, для сравнения производных ответов по шкалам их нужно умножить на
Дима
соответствующая сила сигмы: первая производная по сигме, вторая по сигме ^ 2 и т. д.
Дима
@maximus, ой, я не знаю @. :)
Дима
Спасибо за ваш ответ! Это помогло мне, но есть еще несколько вопросов, которые я задал здесь другим вопросом: dsp.stackexchange.com/questions/570/…
maximus
5

Разница гауссов не является масштабно-инвариантной. SIFT (в ограниченной степени) масштабируемый инвариант, потому что он ищет экстремумы DoG в масштабном пространстве - то есть находит масштаб в экстремальных DoG как в пространственном, так и относительно соседних масштабах. Поскольку выходной DoG получается для этого фиксированного масштаба (который не является функцией входного масштаба), результат не зависит от масштаба, то есть не зависит от масштаба.

mirror2image
источник
1
Правильно. Но он ищет только экстремумы по соседним масштабам. Это не все масштабы, если я не ошибаюсь. Даже если бы это были все масштабы, все еще не ясно, как это независимо от масштаба
вода
@ water, это точно. Вы не хотите экстремум во всех масштабах, вы хотите локальные экстремумы. Это позволяет обнаруживать вложенные структуры, например, маленький темный круг в большом ярком круге на сером фоне.
Дима
DoG используется вместо LoG, потому что он быстрее вычисляется.
Максим