В качестве примера я буду использовать алгоритм преобразования объектов с инвариантным масштабом . SIFT создает масштабное пространство на основе масштабированной гауссовой фильтрации изображения, а затем вычисляет разницу гауссиан для определения потенциальных точек интереса. Эти точки определяются как локальные минимумы и максимумы разности гауссиан.
Утверждается, что этот подход является масштабно-инвариантным (среди других загадочных инвариантов). Почему это? Мне непонятно, почему это так.
Ответы:
Термин «масштабно-инвариантный» означает следующее здесь. Допустим, у вас есть изображение I , и вы обнаружили особенность (известную точку интереса) f в некотором месте (x, y) и на некотором уровне масштаба s . Теперь предположим, что у вас есть изображение I ' , которое является уменьшенной версией I (например, с пониженной выборкой). Затем, если ваш детектор признаков не зависит от масштаба, вы должны быть в состоянии обнаружить соответствующий признак f ' в I' в соответствующем месте (x ', y') и соответствующий масштаб s ' , где (x, y, s) и (х ', у', с ') связаны с соответствующим преобразованием масштабирования.
Другими словами, если ваш масштабно-инвариантный детектор обнаружил характерную точку, соответствующую чьему-либо лицу, и затем вы увеличиваете или уменьшаете масштаб с помощью камеры в той же сцене, вы все равно должны обнаружить характерную точку на этом лице.
Конечно, вы также хотели бы иметь «дескриптор функции», который позволял бы вам сопоставить две функции, что в точности и дает вам SIFT.
Так что, рискуя еще больше сбить вас с толку, есть две вещи, которые не зависят от масштаба. Одним из них является детектор точек интереса DoG, который не зависит от масштаба, потому что он обнаруживает особый тип объектов изображения (блобов) независимо от их масштаба. Другими словами, детектор DoG обнаруживает капли любого размера. Другая инвариантная к масштабу вещь - это дескриптор объекта, который представляет собой гистограмму ориентации градиента, которая остается более или менее похожей для того же объекта изображения, несмотря на изменение масштаба.
Кстати, разность гауссианов используется здесь как приближение к фильтру Лапласа Гаусса.
источник
Разница гауссов не является масштабно-инвариантной. SIFT (в ограниченной степени) масштабируемый инвариант, потому что он ищет экстремумы DoG в масштабном пространстве - то есть находит масштаб в экстремальных DoG как в пространственном, так и относительно соседних масштабах. Поскольку выходной DoG получается для этого фиксированного масштаба (который не является функцией входного масштаба), результат не зависит от масштаба, то есть не зависит от масштаба.
источник