Что такое * искусственная нейронная сеть?

15

Когда мы углубимся в литературу по нейронным сетям , мы сможем идентифицировать другие методы с нейроморфными топологиями (архитектура, подобная «нейронной сети»). И я не говорю о теореме универсального приближения . Примеры приведены ниже.

Тогда это заставляет меня задуматься: каково определение искусственной нейронной сети? Его топология, кажется, охватывает все.


Примеры:

Одна из первых идентификаций, которую мы проводим, - между PCA и линейным автоэнкодером с привязанными весами в кодере и декодере и активациями с пороговым значением в слое узких мест.

Кроме того, общая идентификация выполняется между линейными моделями (в особенности логистической регрессией) и нейронной сетью без скрытого слоя и одного выходного слоя. Эта идентификация открывает несколько дверей.

Ряды Фурье и Тейлора? ANNs . SVM ? ЭНН. Гауссовский процесс? ANN (с одним скрытым слоем с бесконечными скрытыми единицами).

И так же легко мы можем включить произвольные регуляризованные версии со специализированными функциями потерь этих алгоритмов в инфраструктуру нейронной сети.

Но чем больше мы копаем, тем больше сходств. Я только что наткнулся на деревья принятия глубоких нейронных решений , которые позволяют идентифицировать конкретную архитектуру ANN с деревьями решений, что позволяет изучать их с помощью методов ANN (таких как обратное распространение градиентного спуска). Исходя из этого, мы можем построить случайные леса и деревья решений с градиентным усилением только из топологий нейронных сетей.

Если все можно выразить как Искусственную Нейронную Сеть, что определяет Искусственную Нейронную Сеть?

поджигатель
источник
Эта статья о деревьях глубоких нейронных решений довольно далеко там. Обычно функции активации являются вещественными функциями, а не внешними продуктами. Таким образом, они на самом деле не обсуждают ANN, как мы обычно думаем о них, но математическое обобщение, которое не широко используется или не принимается. Чтобы показать, что ИНС отличается от дерева принятия решений, я бы просто указал, что все ИНС являются параметрическими (имеют конечное пространство параметров), в то время как деревья являются непараметрическими (имеют потенциально бесконечное пространство параметров.)
olooney
@olooney Продукт Kronecker - это не функция активации, это просто операция на выходах предыдущего слоя (например, свертка или любая другая операция, которую мы определяем над активациями). DNDT может представлять любое дерево решений, И каждый DNDT может быть представлен деревом решений.
Firebug
1
@Looney, согласно вашему определению функции активации, Softmax не является функцией активации.
Firebug
2
Я не совсем уверен, что понимаю мотивацию этого вопроса. Возможное, слабое определение ANN состоит в том, что это ориентированная графическая модель, которая использует нейроны (т.е. функции активации) для обработки входов / выходов, и большую часть времени вы используете градиентный спуск для обучения. Когда вы говорите, что «все может быть выражено как ANN», вы конкретно спрашиваете, существует ли точное соответствие между упомянутыми другими моделями и ANN? Проблема в том, что вам придется придумать сильно модифицированные учебные программы, чтобы соответствовать оптимизации.
Алекс Р.
1
@Sycorax Я тоже так понимаю, и он, и Хинтон намекнули на это. Я хочу дать возможность ответчикам в другом лагере предоставить достоверные источники :)
Firebug

Ответы:

6

Юрген Шмидхубер, « Глубокое обучение в нейронных сетях: обзор », прослеживает историю ключевых понятий в нейронных сетях и глубоком обучении. По его мнению, нейронные сети, по-видимому, охватывают практически любую модель, которую можно охарактеризовать как ориентированный граф, где каждый узел представляет некоторую вычислительную единицу. Шмидхубер - известный исследователь нейронных сетей, он написал оригинальную статью о сетях LSTM с Сеппом Хохрайтером.

Какие модифицируемые компоненты системы обучения отвечают за ее успех или неудачу? Какие изменения в них улучшают производительность? Это называется фундаментальной проблемой присвоения кредитов (Minsky, 1963). Существуют общие методы назначения кредитов для универсальных решателей задач, которые являются оптимальными по времени в различных теоретических смыслах (раздел 6.8). Однако настоящее исследование будет сосредоточено на более узком, но в настоящее время коммерчески важном подполе глубокого обучения (DL) в искусственных нейронных сетях (NN).

Стандартная нейронная сеть (NN) состоит из множества простых, связанных между собой процессоров, называемых нейронами, каждый из которых производит последовательность действительных значений активаций. Входные нейроны активируются через сенсоры, воспринимающие окружающую среду, другие нейроны активируются через взвешенные соединения от ранее активных нейронов (подробности в разделе 2). Некоторые нейроны могут влиять на окружающую среду, вызывая действия. Обучение или присвоение кредита - это поиск весов, которые заставляют NN демонстрировать желаемое поведение, например, вождение автомобиля. В зависимости от проблемы и того, как нейроны связаны, такое поведение может потребовать длинных причинных цепочек вычислительных этапов (раздел 3), где каждый этап трансформирует (часто нелинейным образом) совокупную активацию сети. Глубокое обучение о точном распределении кредитов на многих таких этапах.

Мелкие NN-подобные модели с небольшим количеством таких стадий существуют уже много десятилетий, если не столетий (раздел 5.1). Модели с несколькими последовательными нелинейными слоями нейронов датируются, по крайней мере, 1960-ми годами (раздел 5.3) и 1970-ми годами (раздел 5.5). Эффективный метод градиентного спуска для учительского контролируемого обучения (SL) в дискретных, дифференцируемых сетях произвольной глубины, называемый обратным распространением (BP), был разработан в 1960-х и 1970-х годах и применен к NN в 1981 году (раздел 5.5). Тем не менее, к концу 1980-х годов было выявлено, что тренировка глубоких НН с многослойностью на основе АД на практике оказалась сложной на практике (раздел 5.6) и стала предметом явных исследований в начале 1990-х годов (раздел 5.9). DL стал практически выполнимым в некоторой степени с помощью Unsupervised Learning (UL), например, Sec. 5.10 (1991), гл. 5.15 (2006). В 1990-х и 2000-х годах также наблюдалось множество улучшений в работе с чисто контролируемым DL (раздел 5). В новом тысячелетии глубокие NN наконец привлекли к себе всеобщее внимание, главным образом благодаря опережающим альтернативным методам машинного обучения, таким как машины ядра (Vapnik, 1995; Scholkopf et al., 1998), во многих важных приложениях. Фактически, с 2009 года контролируемые глубинные NN выиграли многие официальные международные соревнования по распознаванию образов (например, разделы 5.17, 5.19, 5.21, 5.22), достигнув первых сверхчеловеческих результатов распознавания визуальных образов в ограниченных областях (раздел 5.19, 2011). Глубокие NN также стали актуальными для более общей области обучения подкреплению (RL), где нет учителя-надзирателя (Раздел 6). главным образом за счет превосходства альтернативных методов машинного обучения, таких как машины с ядром (Vapnik, 1995; Scholkopf et al., 1998), во многих важных приложениях. Фактически, с 2009 года контролируемые глубинные NN выиграли многие официальные международные соревнования по распознаванию образов (например, разделы 5.17, 5.19, 5.21, 5.22), достигнув первых сверхчеловеческих результатов распознавания визуальных образов в ограниченных областях (раздел 5.19, 2011). Глубокие NN также стали актуальными для более общей области обучения подкреплению (RL), где нет учителя-надзирателя (Раздел 6). главным образом за счет превосходства альтернативных методов машинного обучения, таких как машины с ядром (Vapnik, 1995; Scholkopf et al., 1998), во многих важных приложениях. Фактически, с 2009 года контролируемые глубинные NN выиграли многие официальные международные соревнования по распознаванию образов (например, разделы 5.17, 5.19, 5.21, 5.22), достигнув первых сверхчеловеческих результатов распознавания визуальных образов в ограниченных областях (раздел 5.19, 2011). Глубокие NN также стали актуальными для более общей области обучения подкреплению (RL), где нет учителя-надзирателя (Раздел 6). достижение первых сверхчеловеческих результатов распознавания визуальных образов в ограниченных областях (раздел 5.19, 2011). Глубокие NN также стали актуальными для более общей области обучения подкреплению (RL), где нет учителя-надзирателя (Раздел 6). достижение первых сверхчеловеческих результатов распознавания визуальных образов в ограниченных областях (раздел 5.19, 2011). Глубокие NN также стали актуальными для более общей области обучения подкреплению (RL), где нет учителя-надзирателя (Раздел 6).

С другой стороны, я не уверен, что обязательно стоит попытаться построить таксономию взаимоисключающих групп для стратегий машинного обучения. Я думаю, что мы можем сказать, что есть перспективы, с которых модели можно рассматривать как нейронные сети. Я не думаю, что эта перспектива обязательно самая лучшая или полезная во всех контекстах. Например, я все еще планирую ссылаться на случайные леса и деревья с градиентным усилением как на «ансамбли деревьев» вместо того, чтобы абстрагироваться от их различий и называть их «деревьями нейронной сети». Более того, Шмидхубер отличает NN от машин с ядром - хотя машины с ядром имеют некоторые связи с NN - когда он пишет: «В новом тысячелетии глубокие NN наконец привлекли широкое внимание, в основном, превосходя альтернативные методы машинного обучения, такие как машины ядра ... в многочисленных важных приложениях. "

Sycorax говорит восстановить Монику
источник
Таким образом, в сущности, каждая модель и эвристика, известные сегодня в области машинного обучения и статистики, будут считаться ANN Шмидхубером, а отличительная номенклатура просто задается стратегией оптимизации (включая модели без оптимизации)?
Firebug
1
Я понимаю это с практической точки зрения, но это не меняет того факта, что почти каждая модель, строго говоря, является ANN (я не могу представить ни одну отдельную модель, которая не является).
Firebug
2
@Firebug Как бы вы переформатировали регрессионные или (простые k-средства и другие) проблемы кластеризации, которые обучаются или помещаются в «среду обучения», чтобы они соответствовали этому определению ANN?
Секст Эмпирик
1
@Firebug Я не понимаю, как факт, что PCA может быть эквивалентен определенному автоэнкодеру, делает PCA "нейронной сетью". В стандартном PCA мы даже не используем градиентный спуск.
говорит амеба, восстанови Монику
1
@Firebug Если вы определите «NN» как «связанные вычислительные узлы», то я предполагаю, что любое вычисление является NN. Не уверен, что это пригодится, но хорошо.
амеба говорит восстановить Монику
7

Если вам нужно базовое определение ANN, вы можете сказать, что это ориентированная графическая модель, в которой входы и выходы обрабатываются на каждом узле с помощью функции активации, и большая часть спуска градиента времени используется для его обучения. Таким образом, действительно возникает вопрос: какие модели можно представить в виде графических моделей?

Я не эксперт, но, я полагаю, теоретически некоторые ANN могут быть показаны как полные по Тьюрингу, что означает, что они должны быть в состоянии выполнить любой возможный набор вычислений (с учётом возможного бесконечного количества ресурсов).

Я также собираюсь интерпретировать ваш вопрос следующим образом:

Могу ли я соединить модель ANN для любой данной модели, чтобы подражать этой модели как можно ближе и в разумные сроки?

Ванильная нейронная сеть может эмулировать дерево решений, используя тяжелые пошаговые активации. Проблема в том, что такие активации юнита имеют нулевой градиент, поэтому нормальный градиентный спуск не будет работать. Вы можете сказать: «Нет проблем, просто используйте измененную форму градиентного спуска». Однако этого все еще недостаточно. Для лучшего примера возьмем что-то вроде XGBOOST, которое не просто леса с градиентным усилением. Существует много дополнительной работы, связанной с выбором точек разделения, обрезкой, оптимизацией по скорости и т. Д. Может быть, после достаточного количества модификаций вы можете сделать похожий ANN, но совсем не ясно, что такой ANN будет работать по крайней мере как ну, если он не оптимизирован для работы.

е(Икс)знак равноеИкс

Алекс Р.
источник
2
Спасибо за ответ! Что касается вопроса - "For any given model, can I slap together an ANN model to emulate that model, as close as possible, and in a reasonable amount of time?"я боюсь сказать, что это не главное. Дело в том, что топология ANN настолько общая, что, кажется, охватывает все, и стратегия оптимизации, по-видимому, не в состоянии определить, что является, а что нет. Поэтому вопрос, что определяет ИНС? Потому что иначе все, в некотором смысле, является ИНС, выраженным в других терминах.
Firebug
1
"A vanilla neural network can emulate a decision tree, by using heaviside step-activations. The problem is that such unit activations have zero gradient, so normal gradient descent won't work. You might say, "no problem, just use a modified form of gradient descent." However, that's still not enough. [...]"- Как мы могли бы утверждать, оптимизация не является определяющим фактором для определения того, что составляет ANN. Если вы можете написать каждое дерево решений в виде нейронной сети (и мы можем это сделать), то мы можем с уверенностью сказать, что DT являются (типом) NN, в то время как обратное утверждение неверно.
Firebug
"If you want a basic definition of an ANN, you might say that it's a directed-graphical-model, where inputs and outputs are processed at each node via an activation function, and most of the time gradient descent is used to train it. So the question really becomes: what models out there can be expressed as graphical models?"- Я согласен с этим. Тогда «Нейронную сеть» можно интерпретировать как наиболее общий класс моделей, возможно, только менее общий, чем «Графовые модели», который является надмножеством как неориентированных, так и направленных моделей графов. Возможно, вы могли бы подробнее рассказать об этом;)
Firebug
2

Возможно, более точное название для ИНС - «дифференцируемые сети», то есть сложные параметризованные функции, которые могут быть оптимизированы с использованием градиентного спуска или его варианта. Это очень общее определение, которое подчеркивает дифференцируемость, но ничего не говорит о главных идеях, задачах, для которых оно подходит, математической структуре и т. Д.

Обратите внимание, что дифференцируемость является чертой, а не основной. Например, SVM может обучаться с использованием градиентного спуска и, таким образом, проявляет свойства нейронной / дифференцируемой сети, но основная идея заключается в разделении данных с использованием гиперплоскостей. Вариационный автоэнкодер использует MLP для кодера и декодера, но оптимизируемая вами функция основана на байесовской статистике и т. Д.

Есть также несколько моделей, которые часто называют нейронными сетями, но не используют GD для обучения. Хороший пример - RBM. Я предполагаю, что лейбл "нейронная сеть" был прикреплен к нему в основном по историческим причинам - в конце концов, создатель RBM - Джеффри Хинтон, а Хинтон - парень из нейронной сети, верно? Однако, если вы проанализируете модель, то увидите, что структура RBM представляет собой марковскую сеть, основанная на энергии функция затрат основана на статистической физике начала 20-го столетия, и выборка MCMC / Gibbs развивалась параллельно и полностью независимо от нейронных сетей. ,

ffriend
источник
2
Градиентное обучение, безусловно, сыграло свою роль в успехе ANN. Но я не вижу дифференциации как существенной для определения, потому что некоторые ANN не дифференцируемы. Например, в самой первой ANN (модель МакКаллоха-Питтса) использовались двоичные пороговые единицы. Актуальная тема исследования - как выполнить обучение в недифференцируемых ANN, например, в шипованных сетях. Или предположим, что мы начинаем с типичного, дифференцируемого ANN, но затем заявляем, что хотим минимизировать недифференцируемую функцию потерь. Это больше не ANN?
user20160
Именно поэтому я предложил альтернативное определение, которое охватывает коренные, рекуррентные, рекурсивные, сверточные сети, авто-кодеры, VAE, GAN, внимание и многие другие модели, которые мы обычно называем «нейронными сетями», но исключает, например, подходы, основанные на моделировании человеческого мозга. или обширный отбор проб на МПГ. Начиная с 2018 года, эти подходы действительно разные, в них используются разные методы оптимизации, разные библиотеки и т. Д. (Хотя я не могу придумать лучшего имени, чем «нейронная сеть» для шипения сетей, поскольку, в отличие от CNN или RNN, фактически имитирует человека мозг).
друг
1

Я мог бы постулировать некоторые вещи, которые помогают определить нейронную сеть.

  • Граф вычислений с настраиваемыми параметрами.
  • Указанные параметры могут быть скорректированы в соответствии с данными (реальными или смоделированными).
  • Целевая функция, которую нужно оптимизировать, задействуется неявно или явно. Он может быть глобальным или локальным по параметрам.

Я почти уверен, что это охватывает все общепринятые сегодня нейронные сети, а также некоторые эзотерические.

Это не зависит от оптимизации (если мы навязываем градиентную оптимизацию, то развитые сети не будут нейронными сетями).

В ней не упоминаются нейроны / узлы или слои (некоторые нейронные сети сегодня едва ли описываются этими терминами), но я думаю, мы могли бы включить это и быть немного более ограничительными.

поджигатель
источник