В статье Faster RCNN, когда речь идет об привязке, что они подразумевают под использованием «пирамид справочных блоков» и как это делается? Означает ли это, что в каждой из опорных точек W * H * k создается ограничивающий прямоугольник?
Где W = ширина, H = высота и k = количество соотношений сторон * количество шкал
ссылка на статью: https://arxiv.org/abs/1506.01497
deep-learning
computer-vision
BadProgrammer
источник
источник
Ответы:
Якоря объяснил
Якоря
В настоящее время, игнорируя причудливый термин «пирамиды опорных блоков», якоря - это не что иное, как прямоугольники фиксированного размера, которые нужно подавать в сеть предложений по регионам. Анкеры определены над последней сверточной картой признака, то есть есть( Hее т у р е м р∗ Wее т у р е м р) ∗ ( к ) из них, но они соответствуют изображению. Затем для каждого якоря RPN прогнозирует вероятность содержания объекта в целом и четырех координат коррекции для перемещения и изменения размера якоря в нужное положение. Но какое отношение геометрия якорей имеет к RPN?
Якоря фактически появляются в функции потери
При обучении RPN сначала метка двоичного класса назначается каждому якору. Якорям с пересечением через объединение ( IoU ), перекрывающимся с прямоугольником заземления, превышающим определенный порог, присваивается положительная метка (аналогично якорям с IoU, меньшим, чем данный порог, будет присваиваться отрицательное значение). Эти метки также используются для вычисления функции потерь:
является выходом классификационного заголовка RPN, который определяет вероятность того, что якорь будет содержать объект. Для якорей, помеченных как Отрицательные, при регрессии не происходит никаких потерь - p ∗ , метка истинности основания равна нулю. Другими словами, сеть не заботится о выведенных координатах для отрицательных якорей и рада, если она правильно их классифицирует. В случае положительной привязки потеря регрессии учитывается. t - выходной сигнал регрессионной головки RPN, вектор, представляющий 4 параметризованные координаты прогнозируемой ограничительной рамки. Параметризация зависит отгеометрии якоряи выглядит следующим образом:п п* T
Кроме того, якоря без меток не классифицируются и не изменяются, а RPM просто выбрасывает их из вычислений. Как только работа RPN выполнена, и предложения сгенерированы, остальные очень похожи на Fast R-CNN.
источник
Я прочитал эту статью вчера, и, на первый взгляд, она меня тоже смутила. Перечитав, я пришел к такому выводу:
7x7x512 (HxWxD)
.3x3
слоем свертки. Размер вывода7x7x512
(если используется заполнение).7x7x(2k+4k)
(например7x7x54
) слой с1x1
извилистым слоем для каждого изk
якорных блоков.Теперь согласно рисунку 1 в статье вы можете иметь пирамиду входных изображений (те же изображения с разным масштабом), пирамиду фильтров (фильтры другого масштаба, в том же слое) или пирамиду опорных блоков. Последний относится к
k
якорным ящикам на последнем уровне сети предложений региона. Вместо фильтров с разными размерами, которые уложены друг на друга (средний корпус), фильтры с другим размером и соотношением сторон уложены друг на друга.Короче говоря, для каждой точки привязки (
HxW
, например7x7
) пирамиды эталонных коробок (k
, например9
) используется.источник
3x3
конвой слой переводится7x7
? В прототипе написано, что отступ на последнем слое VGG16 равен 1.