В чем разница между «эквивалентным переводу» и «инвариантным переводом»

38

У меня проблемы с пониманием разницы между эквивариантным переводом и инвариантным переводом .

В книге Глубокое обучение . MIT Press, 2016 (И. Гудфеллоу, А. Курвилл и Ю. Бенжио), можно найти в сверточных сетях:

[...] особая форма совместного использования параметров приводит к тому, что уровень имеет свойство, называемое эквивалентностью переводу
[...] объединение помогает сделать представление примерно инвариантным к небольшим переводам ввода

Есть ли разница между ними или термины взаимозаменяемы?

neural-network deep-learning convolution Аамир
источник

2

В старые времена статистики, как и во времена Питмана, инвариант использовался в значении эквивариантного.

Сиань

39

Эквивариантность и инвариантность иногда используются взаимозаменяемо. Как указывает @ Xi'an , вы можете найти применения в статистической литературе, например, в понятиях инвариантной оценки и особенно в оценке Питмана .

Тем не менее, я хотел бы отметить, что было бы лучше, если бы оба термина были разделены , так как префикс « in- » в инварианте является приватизирующим (что означает «нет дисперсии» вообще), в то время как « эквивалентный » в эквивариантном означает «изменяющийся» в аналогичной или эквивалентной пропорции ". Другими словами, один не двигается, другой движется .

Давайте начнем с простых особенностей изображения и предположим, что у изображения $I$ есть уникальный максимум $m$ в пространственном местоположении пикселей $(x_m,y_m)$ , который здесь является основным признаком классификации. Другими словами: изображение и все его переводы "одинаковы" . Интересным свойством классификаторов является их способность одинаково классифицировать некоторые искаженные версии $I'$ of $I$ , например, переводы по всем векторам $(u,v)$ .

Максимальное значение $m'$ для $I'$ является инвариантным : $m'=m$ : значение одинаково. В то время как его местоположение будет в $(x'_m,y'_m)=(x_m-u,y_m-v)$ , и является эквивариантным , что означает, что это изменяется "одинаково" с искажением .

Точные формулировки, приведенные в математике для эквивалентности, зависят от рассматриваемых объектов и преобразований, поэтому я предпочитаю понятие, которое чаще всего используется на практике (и я могу получить вину с теоретической точки зрения).

Здесь переводы (или некоторые более общие действия) могут быть снабжены структурой группы $G$ , где $g$ является одним конкретным оператором перевода. Функция или функция $f$ инвариантна относительно $G$ если для всех изображений в классе и для любого $g$ ,

е (г (я)) знак равно е (я),

$f(g(I)) = f(I)\,.$

Это становится эквивариантным , если существует другую математическую структуру или действия (часто группа) $G'$ , что отражает преобразования в $G$ осмысленно . Другими словами, такой, что для каждого $g$ вас есть один уникальный $g' \in G'$ такой, что

е (г (я)) знак равно г^{'} (е (я)),

$f(g(I)) = g'(f(I))\,.$

В приведенном выше примере на группы сдвигов, $g$ и $g'$ являются одинаковыми (и , следовательно , $G'=G$ ): целое число , перевод изображения отражает , как точно такой же перевод максимального местоположения.

Другое распространенное определение:

е (г (я)) знак равно г (е (я)),

$f(g(I)) = g(f(I))\,.$

Однако я использовал потенциально разные $G$ и $G'$ потому что иногда $f(I)$ и $g(I)$ не находятся в одной области. Это происходит, например, в многомерной статистике (см., Например, свойства эквивариантности и инвариантности многомерного квантиля и связанных функций, а также роль стандартизации ). Но здесь единственность отображения между $g$ и $g'$ позволяет вернуться к исходному преобразованию $g$ .

Часто люди используют термин инвариантность, потому что концепция эквивариантности неизвестна, или все остальные используют инвариантность, и эквивариантность может показаться более педантичной.

Для записи, другие связанные понятия (особенно в математике и физике) называются ковариацией , контравариантностью , дифференциальной инвариантностью .

Кроме того, трансляционная инвариантность, как наименее приближенная, или в конверте, была целью нескольких инструментов обработки сигналов и изображений. Примечательно, что за последние 25 лет были разработаны многоскоростные (банки фильтров) и многомасштабные (вейвлеты или пирамиды) преобразования, например, под капотом инвариантных к смещению, циклически вращающихся, стационарных, сложных, двойных деревьев. вейвлет-преобразования (для обзора 2D-вейвлетов, панорамы на многомасштабных геометрических представлениях ). Вейвлеты могут поглощать несколько дискретных вариаций масштаба. Все тезисы (приблизительные) инвариантности часто идут с ценой избыточности в числе преобразованных коэффициентов. Но они, скорее всего, дадут инвариантные или эквивалентные сдвигу функции.

Лоран Дюваль
источник

4

Большой! Я действительно восхищаюсь свои усилия для подробного ответа @Laurent Duval

Аамир

25

Условия разные:

Эквивалентный переводу означает, что перевод входных объектов приводит к эквивалентному переводу выходных данных. Так, если ваш шаблон 0,3,2,0,0 на входе приводит к 0,1,0,0 на выходе, то шаблон 0,0,3,2,0 может привести к 0,0,1, 0
Инвариант к переводу означает, что перевод входных объектов не изменяет выходные данные вообще. Таким образом, если ваш шаблон 0,3,2,0,0 на входе приводит к 0,1,0 на выходе, то шаблон 0,0,3,2,0 также приведет к 0,1,0

Для того чтобы карты объектов в сверточных сетях были полезны, им обычно необходимы оба свойства в некотором балансе. Эквивалентность позволяет сети обобщать границы, текстуру, обнаружение формы в разных местах. Инвариантность позволяет менее точно определять местоположение обнаруженных объектов. Это два дополнительных типа обобщения для многих задач обработки изображений.

Нил Слэйтер
источник

Переведенный объект дает переведенный вывод на некотором слое. Пожалуйста, опишите подробно переведенный объект в целом. Кажется, это будет обнаружено, даже если CNN не был обучен с изображениями, содержащими разные позиции? Имеет ли место эквивариантность в этом случае (больше похоже на инвариантность)?

ВладимирЛенин

@VladimirLenin: Я не думаю, что для этого вопроса требуется проработка, это определенно не то, что ОП задал здесь. Я предлагаю вам задать отдельный вопрос, с конкретным примером, если это возможно. Даже если визуально «весь объект» был переведен, это не означает, что карты объектов в CNN отслеживают то же самое, что и вы ожидаете.

Нил Слэйтер

4

Просто добавляю мои 2 цента

$f : I \rightarrow L$ $I$ $L$

$f : I \rightarrow \mathcal{L}$
$f : \mathcal{L} \rightarrow L$

и это выполняется с использованием следующих свойств

пространственная эквивалентность в отношении ConvLayer (Spatial 2D Convolution + NonLin, например, ReLU) в качестве сдвига на входе слоя приводит к сдвигу на выходе слоя (примечание: речь идет о слое, а не об одном операторе свертки)
пространственная инвариантность относительно оператора пула (например, Max Pooling передает максимальное значение в своем рецептивном поле независимо от его пространственного положения)

$I$

$\mathcal{L}$

Использование полностью связанных слоев во внешнем интерфейсе делает классификатор в некоторой степени чувствительным к положению объекта, в зависимости от структуры внутреннего интерфейса: чем он глубже и тем больше используется оператор инварианта перевода (Пул)

В разделе « Количественная оценка трансляционной инвариантности в сверточных нейронных сетях» было показано, что для улучшения инвариантности трансляции классификатора CNN вместо воздействия на индуктивное смещение (архитектура, следовательно, глубина, объединение и т. Д.) Более эффективно воздействовать на смещение набора данных (увеличение данных). )

Никола Бернини
источник

В чем разница между «эквивалентным переводу» и «инвариантным переводом»

Ответы: