Справочная информация: я изучаю 6-ю главу «Глубокое обучение» Иана Гудфеллоу, Йошуа Бенжио и Аарона Курвилля. В разделе 6.2.2.2 (страницы 182 из 183, которые можно посмотреть здесь ) использование сигмоиды для вывода мотивировано .
Чтобы суммировать некоторые материалы, они позволяют быть выходным нейроном до применения активации, где h - выход предыдущего скрытого слоя, w - вектор весов, а b - скалярное смещение. Входной вектор обозначен x (от которого h является функцией), а выходное значение обозначено y = ϕ ( z ), где ϕ - сигмовидная функция. Книга желает определить распределение вероятностей по y, используя значение z
Мы опускаем зависимость от на данный момент, чтобы обсудить, как определить распределение вероятностей по y, используя значение z . Сигмовидное может быть мотивировано построением ненормированного распределения вероятностей ~ Р ( у ) , который не суммируется до 1. Затем мы можем разделить на соответствующей константу , чтобы получить действительное распределение вероятностей. Если мы начнем с предположения, что ненормализованные логарифмические вероятности линейны по y и z , мы можем возвести в степень для получения ненормированных вероятностей. Затем мы нормализуем, чтобы увидеть, что это дает распределение Бернулли, управляемое сигмоидальным преобразованием z: log ˜
Вопросы: я запутался в двух вещах, особенно в первом:
- Откуда исходит исходное предположение? Почему ненормализованная логарифмическая вероятность линейна по и z ? Может кто-нибудь дать мне некоторое представление о том, как авторы начали с log ˜ P ( y ) = y z ?
- Как следует последняя строка?
Я также нахожу этот фрагмент книги трудным для подражания, и приведенный выше ответ itdxer заслуживает некоторого времени, чтобы понять его и тому, кто недостаточно хорошо владеет вероятностями и математическим мышлением. Однако я сделал это, прочитав ответ в обратном направлении, поэтому начнем с сигмоида z
и попытаться вернуться к.
Тогда имеет смысл, почему они начали объяснение с YZ - это по замыслу, так же, как в финале
по построению позволяет получить -1 для y = 0 и 1 для y = 1, которые являются единственно возможными значениями y при Бернулли.
источник
Вот более формальная формулировка, которая понравится тем, у кого теоретический фон.
Пусть - число Бернулли, и пусть P Y обозначает меру pushforward, т.е. для y ∈ { 0 , 1 } , P Y ( y ) = P ( Y = y ) и пустьY пY Y∈ { 0 , 1 } пY( у) = P( Y= у) п~Y обозначает его ненормализованный аналог.
У нас есть следующая цепочка последствий:
источник