Как работает «теория капсул» Хинтона?

35

Джеффри Хинтон исследовал то, что он называет «теорией капсул» в нейронных сетях. Что это такое и как это работает?

rcpinto
источник
8
Теперь эту статью можно посмотреть по адресу: arxiv.org/abs/1710.09829 Динамическая маршрутизация между капсулами Сара Сабур, Николас Фрост, Джеффри Э Хинтон
Данке Се
1
Есть связанный вопрос с более новой информацией (ноябрь 2017 года): какова основная концепция Capsule Networks?
Мюль

Ответы:

31

Похоже, он еще не опубликован; лучшими из доступных в Интернете являются эти слайды для этого доклада . (Несколько человек ссылаются на более раннюю беседу по этой ссылке , но, к сожалению, она не работает во время написания этого ответа.)

У меня сложилось впечатление, что это попытка формализовать и абстрагировать создание подсетей внутри нейронной сети. То есть, если вы посмотрите на стандартную нейронную сеть, слои полностью связаны (то есть, каждый нейрон в слое 1 имеет доступ к каждому нейрону в слое 0, и сам по себе доступ к каждому нейрону в слое 2). Но это явно не полезно; вместо этого можно было бы иметь, скажем, n параллельных стопок слоев («капсул»), каждая из которых специализируется на какой-то отдельной задаче (для которой может потребоваться более одного слоя для успешного завершения).

Если я правильно представляю результаты, эта более сложная топология графа кажется чем-то, что может легко повысить как эффективность, так и интерпретируемость получаемой сети.

Мэтью Грейвс
источник
9
Документ опубликован (октябрь 2017 г.): arxiv.org/pdf/1710.09829.pdf
Machinaut
13

В дополнение к предыдущему ответу: есть статья по этому вопросу, которая в основном посвящена изучению капсул низкого уровня по необработанным данным, но объясняет концепцию капсулы Хинтона в ее вводном разделе: http://www.cs.toronto.edu/~ Fritz / absps / transauto6.pdf

Стоит также отметить, что ссылка на доклад MIT в ответе выше, кажется, снова работает.

Согласно Хинтону, «капсула» представляет собой подмножество нейронов в слое, который выводит как «параметр создания экземпляра», указывающий, присутствует ли объект в ограниченной области, так и вектор «параметров позы», определяющих положение объекта относительно каноническая версия.

Параметры, выводимые капсулами низкого уровня, преобразуются в прогнозы для позы объектов, представленных капсулами высокого уровня, которые активируются, если прогнозы согласуются, и выводят свои собственные параметры (параметры позы более высокого уровня являются средними значениями полученных прогнозов). ).

Хинтон размышляет, что это обнаружение совпадений с высокой размерностью - то, для чего нужна организация мини-колонок в мозге. Похоже, его главная цель - заменить максимальный пул, используемый в сверточных сетях, в которых более глубокие слои теряют информацию о позе.

a.kief
источник
4

Капсульные сети пытаются имитировать наблюдения Хинтона за человеческим мозгом на машине. Мотивация проистекает из того факта, что нейронные сети нуждаются в лучшем моделировании пространственных отношений частей. Вместо того, чтобы моделировать сосуществование, игнорируя относительное расположение, капсульные сети пытаются смоделировать глобальные относительные преобразования различных частей по иерархии. Это компромисс между эквивариантностью и инвариантностью, как объяснено выше другими.

Эти сети, следовательно, включают в себя понимание точки зрения / ориентации и по-разному реагируют на различные ориентации. Это свойство делает их более различительными, в то же время потенциально предоставляя возможность выполнять оценку позы, поскольку функции скрытого пространства содержат интерпретируемые, специфичные для детали детали.

Все это достигается путем включения в слой вложенного слоя, называемого капсулами, вместо объединения еще одного слоя в сети. Эти капсулы могут обеспечивать выходной вектор вместо скалярного на узел.

Важнейшим вкладом статьи является динамическая маршрутизация, которая заменяет стандартное максимальное объединение умной стратегией. Этот алгоритм применяет кластеризацию среднего сдвига к выходным данным капсулы, чтобы гарантировать, что выходные данные отправляются только соответствующему родительскому элементу на уровне выше.

Авторы также связывают вклады с потерей запаса и потерей на реконструкцию, которые одновременно помогают лучше изучить задачу и демонстрируют современные результаты на MNIST.

Последняя статья называется « Динамическая маршрутизация между капсулами» и доступна на сайте: https://arxiv.org/pdf/1710.09829.pdf .

Толга Бердал
источник
3

На основе их статьи Динамическая маршрутизация между капсулами

Капсула - это группа нейронов, вектор активности которых представляет параметры реализации объекта определенного типа, такого как объект или часть объекта. Мы используем длину вектора активности для представления вероятности существования сущности и ее ориентации для представления параметров реализации. Активные капсулы на одном уровне с помощью матриц преобразования предсказывают параметры реализации капсул более высокого уровня. Когда несколько предсказаний согласуются, капсула более высокого уровня становится активной. Мы показываем, что многослойная капсульная система с отличительной подготовкой обеспечивает самые современные характеристики MNIST и значительно лучше, чем сверточная сеть, для распознавания сильно перекрывающихся цифр. Для достижения этих результатов мы используем итеративный механизм маршрутизации по соглашению: Капсула более низкого уровня предпочитает отправлять свою продукцию в капсулы более высокого уровня, векторы активности которых имеют большой скалярный продукт с предсказанием, исходящим из капсулы более низкого уровня. Окончательный вариант документа находится на пересмотре, чтобы включить комментарии рецензентов.

mwweb
источник
2
Хороший ответ обычно больше, чем просто цитата. Обычно вы можете изложить более ясным способом или углубиться в глубину. Очень редко это просто цитата, все, что нужно, чтобы сделать хороший ответ. Как вы думаете, вы могли бы немного улучшить это, отредактировав ?
user58
3

Одним из основных преимуществ сверточных нейронных сетей является их неизменность для перевода. Однако эта инвариантность имеет свою цену, то есть она не учитывает, как различные функции связаны друг с другом. Например, если у нас есть изображение лица, у CNN будут трудности с различением взаимосвязи между особенностями рта и особенностями носа. Максимальное количество пулов - основная причина этого эффекта. Потому что, когда мы используем максимальное количество слоев пула, мы теряем точное местоположение рта и шума, и мы не можем сказать, как они связаны друг с другом.

Капсулы пытаются сохранить преимущество CNN и исправить этот недостаток двумя способами;

  1. Инвариантность: цитата из этой статьи

Когда капсула работает должным образом, вероятность присутствия визуального объекта является локально инвариантной - она ​​не изменяется, когда объект перемещается по множеству возможных появлений в пределах ограниченной области, охватываемой капсулой.

Другими словами, капсула учитывает наличие специфической особенности, которую мы ищем, как рот или нос. Это свойство гарантирует, что капсулы являются трансляционно-инвариантными такими же, как и CNN.

  1. Эквивариантность: вместо того, чтобы делать инвариантность трансляции объекта , капсула сделает ее эквивалентной трансляции или эквивалентной точке зрения. Другими словами, когда объект перемещается и меняет свое положение на изображении, представление вектора объекта также будет изменяться таким же образом, что делает его эквивариантным. Это свойство капсул пытается устранить недостаток макс пула слоев, который я упоминал в начале.
РАН
источник