Что такое байесовское глубокое обучение?

13

Что такое байесовское глубокое обучение и как оно относится к традиционной байесовской статистике и традиционному глубокому обучению?

Каковы основные понятия и математика? Могу ли я сказать, что это просто непараметрическая байесовская статистика? Каковы его основные работы, а также его текущие основные разработки и приложения?

PS: Bayesian Deep Learning привлекает большое внимание, см. Семинар NIPS.

statslearner
источник

Ответы:

10

Уйдя со своей ссылки на семинар по NIPS, Йи Уай Тей выступил с программной речью в NIPS по Bayesian Deep Learning (видео: https://www.youtube.com/watch?v=LVBvJsTr3rg , слайды: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/). Я думаю, что в какой-то момент в речи Те резюмировал байесовское глубокое обучение как применение байесовской структуры к идеям глубокого обучения (например, апостериорное обучение над весами нейронной сети) и глубокое байесовское обучение как применение идей глубокого обучения к Байесовский каркас (например, глубокие гауссовские процессы или глубокие экспоненциальные семейства). Конечно, есть идеи, которые находятся между двумя понятиями, например, вариационные автоэнкодеры. Когда большинство людей говорят о байесовском глубоком обучении, они обычно имеют в виду одно из двух, и это отражено в принятых документах на семинаре, который вы связали (вместе с семинаром в предыдущем году). В то время как идеи восходят к работе Нила по байесовскому обучению нейронных сетей в 90-х годах (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), и с тех пор была проделана большая работа, вероятно, одной из наиболее важных недавних статей будет оригинальная вариационная бумага для автоматического кодирования ( https://arxiv.org/pdf/1312.6114.pdf ).

aleshing
источник
10

Я хотел бы предложить, чтобы вы сначала получили хорошее представление о том, что лежит в основе вероятностной модели в традиционной байесовской нейронной сети. Далее некоторые термины будут написаны жирным шрифтом . Пожалуйста, попробуйте найти эти термины, чтобы найти более подробную информацию. Это просто базовый обзор. Я надеюсь, что это помогает.

Давайте рассмотрим случай регрессии в нейронных сетях с прямой связью и установим некоторые обозначения.

Пусть обозначают значения предикторов на входном слое , Значения единиц во внутренних слоях будут обозначаться как для . Наконец, у нас есть выходной слой .( z ( ) 1 , , z ( ) N )= 1 , , L - 1 ( у 1 , , у к )(x1,,xp)=:(z1(0),,zN0(0))(z1(),,zN())знак равно1,...,L-1 (Y1,...,YК)знак равно(Z1(L),...,ZNL(L))

Эти веса и смещения узла в слое будем обозначать через и , соответственно, для , и .w ( ) i j b ( ) i= 1 , , L i = 1 , N j = 1 , , N - 1явесяJ()бя()знак равно1,...,Lязнак равно1...,Nj=1,,N1

Пусть будет функцией активации для модуля на слое , для и . i = 1 , , L i = 1 , N gi():RN1Ri=1,,Li=1,N

Обычно используемые функции активации - логистика , ReLU (также известная как положительная часть ) и tanh .

Теперь, для , определите функции перехода слоя в котором для .G ( ) : R N - 1R N : ( z ( - 1 ) 1 , , z ( - 1 ) N - 1 )( z ( ) 1 , , z ( ) N )знак равно1,...,L

грамм():рN-1рN:(Z1(-1),...,ZN-1(-1))(Z1(),...,ZN()),
Zя()знак равнограммя()(ΣJзнак равно1N-1весяJ()ZJ(-1)+бя()),
язнак равно1,...,N

Обозначим множество весов и смещений всех единиц во всех слоях через , то есть наша нейронная сеть семейство функций полученное композицией функций перехода слоя: θ

θзнак равно{весяJ(),бя():знак равно1,...,L;язнак равно1...,N;Jзнак равно1,...,N-1},
граммθ:рпрК
граммθзнак равнограмм(L)грамм(L-1)грамм(1),

В приведенном выше описании нет вероятностей. Целью оригинального бизнеса нейронных сетей является подгонка функций .

«Глубокий» в Deep Learning означает существование многих внутренних слоев в рассматриваемых нейронных сетях.

Для данного обучающего набора мы стараемся свести к минимуму целевую функцию сверх . Для некоторого вектора предикторов в тестовом наборе предсказанный ответ просто , в котором является решением нашел проблему минимизации. Золотой стандарт для этой минимизации - обратное распространение, реализованное библиотекой TensorFlow с использованием средств распараллеливания, доступных в современном графическом процессоре.{(Икся,Yя)рп×рК:язнак равно1,...,N}

Σязнак равно1N| |Yя-граммθ(Икся)| |2,
θИкс*граммθ^(Икс*)θ^(для ваших проектов, проверьте интерфейс Keras ). Кроме того, теперь есть доступное оборудование, инкапсулирующее эти задачи ( TPU ). Поскольку нейронная сеть в целом более параметрироваться, чтобы избежать переобучения некоторой формы регуляризации добавляется в рецепт, например , суммирование хребта , как штраф целевой функции, или с использованием отсева в процессе обучения. Джеффри Хинтон (aka Deep Learning Godfather) и соавторы изобрели многие из этих вещей. Истории успеха глубокого обучения есть везде.

Вероятности были введены в картину в конце 80-х и начале 90-х годов с предложением вероятности Гаусса и простой (возможно, упрощенный) гауссовский априор, предполагающий априорную независимость всех весов и смещений в сети:

LИкс,Y(θ,σ2)ασ-Nехр(-12σ2Σязнак равно1N| |Yя-граммθ(Икся)| |2),
π(θ,σ2)αехр(-12σ02Σзнак равно1LΣязнак равно1N((бя())2+ΣJзнак равно1N-1(весяJ())2))×π(σ2),

Следовательно, маргинальные априоры для весов и смещений - это нормальные распределения с нулевым средним и общей дисперсией . Эту оригинальную модель соединения можно сделать гораздо более сложной, с компромиссом, заключающимся в усложнении вывода.σ02

Байесовское глубокое обучение сталкивается с трудной задачей отбора проб из соответствующего апостериорного распределения. После того, как это выполнено, предсказания сделаны естественно с последующим предсказательным распределением , и неопределенности, вовлеченные в эти предсказания, полностью определены количественно. Священный Грааль в Bayesian Deep Learning - это построение эффективного и масштабируемого решения. Многие вычислительные методы были использованы в этом квесте: выборка Метрополиса-Гастингса и Гиббса , гамильтониан Монте-Карло и, совсем недавно, Вариационный вывод .

Посмотрите видео с конференций NIPS, чтобы узнать некоторые истории успеха: http://bayesiandeeplearning.org/

Zen
источник