Почему люди не используют более глубокие RBF или RBF в сочетании с MLP?

12

Поэтому, рассматривая нейронные сети с радиальной базисной функцией, я заметил, что люди рекомендуют использовать только 1 скрытый слой, тогда как в многослойных нейронных сетях персептрона больше слоев считается лучшим.

Учитывая, что сети RBF могут быть обучены с использованием версии обратного распространения, есть ли причины, по которым более глубокие сети RBF не будут работать, или что уровень RBF не может использоваться в качестве предпоследнего или первого уровня в сети с глубокой MLP? (Я думал о предпоследнем слое, чтобы его можно было обучить основным возможностям предыдущих уровней MLP)

user1646196
источник
Я не эксперт по NN, но у меня сложилось впечатление, что со стандартными NN с прямой связью несколько скрытых слоев обычно не добавляют много.
gung - Восстановить Монику
1
Это было в более ранние дни исследований NN, однако теперь больше слоев, как правило, являются рецептом для повышения производительности (глубокое обучение). Я думаю, что текущий любимый подход - это умная инициализация, как можно больше слоев, регуляризация с помощью dropout и softmax вместо сигмоидальных активаций, чтобы избежать насыщения. (Но я могу ошибаться в методах). Я думаю, что некоторые люди также используют итеративное углубление, чтобы получить лучшие результаты. Кроме того, в 2014 году Google приобрел современное состояние на imageNet с сетью из 100 слоев.
user1646196

Ответы:

4

Основная проблема заключается в том, что RBFs являются a) слишком нелинейными, b) не выполняют уменьшение размеров.

из-за а) RBFs всегда обучались с помощью k-средних, а не градиентного спуска.

Я бы сказал, что основной успех в Deep NNs - это сети, где одной из ключевых частей является уменьшение размеров: хотя при работе с, скажем, 128x128x3 = 50000 входов, каждый нейрон имеет ограниченное восприимчивое поле, и в каждом слое гораздо меньше нейронов .В данном слое в MLP - каждый нейрон представляет особенность / измерение), поэтому вы постоянно уменьшаете размерность (переходя от слоя к слою).

Хотя можно сделать адаптивную ковариационную матрицу RBF и уменьшить размерность, это еще больше усложняет обучение.

seanv507
источник
Недавно я прочитал статью, в которой предлагался алгоритм обратного распространения для обучения сетей RBF. Учитывая это, может ли быть их преимущество иметь RBF в качестве конечного уровня в глубокой сети? Я полагаю, что в этом виде остальная часть глубокой сети, по существу, будет обнаруживать функции, которые RBF может классифицировать
user1646196
может быть, вам стоит обратиться к статье, и тогда люди смогут дать более информированные ответы. Я не вижу никакой пользы ... учитывая, что RBF слишком нелинейный (и, например, сигмоиды были заменены на relu, потому что они были слишком нелинейными - исчезающий градиент ...). Люди тренируются с чистой сеткой со стандартным mlp сверху, затем выбрасывают mlp и используют svm
seanv507
В документе «Обучение сетей RBF с избирательным обратным распространением» не уверен, что вы можете прочитать его здесь или есть платный доступ sciencedirect.com/science/article/pii/S0925231203005411 . Я не знал, что сигмоиды были заменены на relu из-за нелинейности, но, учитывая, что я вижу, как от нелинейности будет зависеть. Я
отмечу