Мотивирующие сигмовидные выходные блоки в нейронных сетях, начиная с ненормализованных логарифмических вероятностей, линейных по

12

Справочная информация: я изучаю 6-ю главу «Глубокое обучение» Иана Гудфеллоу, Йошуа Бенжио и Аарона Курвилля. В разделе 6.2.2.2 (страницы 182 из 183, которые можно посмотреть здесь ) использование сигмоиды для вывода п(Yзнак равно1|Икс) мотивировано .

Чтобы суммировать некоторые материалы, они позволяют быть выходным нейроном до применения активации, где h - выход предыдущего скрытого слоя, w - вектор весов, а b - скалярное смещение. Входной вектор обозначен x (от которого h является функцией), а выходное значение обозначено y = ϕ ( z ), где ϕ - сигмовидная функция. Книга желает определить распределение вероятностей по y, используя значение z

Zзнак равновесTчас+б
часвесбИксчасYзнак равноφ(Z)φYZ, Из второго абзаца страницы 183:

Мы опускаем зависимость от на данный момент, чтобы обсудить, как определить распределение вероятностей по y, используя значение z . Сигмовидное может быть мотивировано построением ненормированного распределения вероятностей ~ Р ( у ) , который не суммируется до 1. Затем мы можем разделить на соответствующей константу , чтобы получить действительное распределение вероятностей. Если мы начнем с предположения, что ненормализованные логарифмические вероятности линейны по y и z , мы можем возвести в степень для получения ненормированных вероятностей. Затем мы нормализуем, чтобы увидеть, что это дает распределение Бернулли, управляемое сигмоидальным преобразованием z: log ˜ИксYZп~(Y)YZ

журналп~(Y)знак равноYZп~(Y)знак равноехр(YZ)п(Y)знак равноехр(YZ)ΣY'знак равно01ехр(Y'Z)п(Y)знак равноφ((2Y-1)Z)

Вопросы: я запутался в двух вещах, особенно в первом:

  1. Откуда исходит исходное предположение? Почему ненормализованная логарифмическая вероятность линейна по и z ? Может кто-нибудь дать мне некоторое представление о том, как авторы начали с log ˜ P ( y ) = y zYZжурналп~(Y)знак равноYZ ?
  2. Как следует последняя строка?
HBeel
источник

Ответы:

8

Есть два возможных результата для . Это очень важно, потому что это свойство меняет смысл умножения. Есть два возможных случая:Y{0,1}

журналп~(Yзнак равно1)знак равноZжурналп~(Yзнак равно0)знак равно0

Кроме того, важно отметить, что ненормализованная логарифмическая вероятность для постоянна. Это свойство вытекает из основного предположения. Применение любой детерминированной функции к постоянному значению даст постоянный результат. Это свойство упростит окончательную формулу, когда мы проведем нормализацию по всем возможным вероятностям, потому что нам просто нужно знать только ненормализованную вероятность для y = 1 и для y = 0Yзнак равно0Yзнак равно1Yзнак равно0 она всегда постоянна. А поскольку выход из сети с ненормализованной логарифмической вероятностью нам потребуется только один выход, потому что другой предполагается постоянным.

Затем мы применяем возведение в степень для ненормализованной вероятности логарифма, чтобы получить ненормализованную вероятность.

п~(Yзнак равно1)знак равноеZп~(Yзнак равно0)знак равное0знак равно1

Затем мы просто нормализуем вероятности, деля каждую ненормализованную вероятность на сумму всех возможных ненормализованных вероятностей.

P(y=1)=ez1+ezP(y=0)=11+ez

Нас интересует только , потому что именно это означает вероятность из сигмовидной функции. Полученная функция на первый взгляд не выглядит как сигмовидная, но они равны, и это легко показать.P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

Последнее утверждение может сначала сбить с толку, но это всего лишь способ показать, что эта конечная функция вероятности является сигмоидальной. В значение новообращенные 0 до - 1 и 1 к 1 (или мы можем сказать , что это было бы без изменений).(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+еZкогда Yзнак равно0

Как мы видим, это просто способ показать связь между и P ( y )σп(Y)

itdxer
источник
«Кроме того, важно отметить, что ненормализованная логарифмическая вероятность для постоянна. Это свойство вытекает из основного предположения». Предполагается, что мы уже решили, что у = 1 ? Yзнак равно0Yзнак равно1
HBeel
Я думаю, что моя путаница возникла из-за того, что сигмоид дает модели вероятность независимо от фактической метки. Благодаря! Yзнак равно1
HBeel
Не хочу быть толстым здесь, но как линейно по y и z . Я ожидал бы что-то вида a y + b z + c . Я понимаю, что логарифмическое произведение y z даст сумму, которая приблизит меня к линейности, но, похоже, это не является прямым следствием заявленного автором. Y×ZYZaY+бZ+сжурналYZ
Зебуллон
Я вижу, это действительно интересный вопрос. Я не обратил внимания на это утверждение, когда впервые прочитал вопрос. Теперь это выглядит странно и для меня. Одна проблема заключается в том, что у двоичная переменная, и я не уверен, как проверить свойства линейной функции в этих условиях. Я думаю, это будет иметь смысл, если вы будете задавать отдельные вопросы, может быть, кто-то может объяснить вам, почему это было написано таким образом.
Itdxer
2

Я также нахожу этот фрагмент книги трудным для подражания, и приведенный выше ответ itdxer заслуживает некоторого времени, чтобы понять его и тому, кто недостаточно хорошо владеет вероятностями и математическим мышлением. Однако я сделал это, прочитав ответ в обратном направлении, поэтому начнем с сигмоида z

п(Yзнак равно1)знак равноеZ1+еZзнак равно11+е-Z

и попытаться вернуться к.

журналп~(Y)знак равноYZ

Тогда имеет смысл, почему они начали объяснение с YZ - это по замыслу, так же, как в финале

σ((2Y-1)Z)

по построению позволяет получить -1 для y = 0 и 1 для y = 1, которые являются единственно возможными значениями y при Бернулли.

Якуб Юрек
источник
0

Вот более формальная формулировка, которая понравится тем, у кого теоретический фон.

Пусть - число Бернулли, и пусть P Y обозначает меру pushforward, т.е. для y { 0 , 1 } , P Y ( y ) = P ( Y = y ) и пустьYпYY{0,1}пY(Y)знак равноп(Yзнак равноY)п~Y обозначает его ненормализованный аналог.

У нас есть следующая цепочка последствий:

журналп~Y(Y)знак равноYZп~Y(Y)знак равноехр(YZ)пY(Y)знак равноеYZе0Z+е1Zзнак равноеYZ1+еZпY(Y)знак равноYеZ1+еZ+(1-Y)11+еZпY(Y)знак равноYσ(Z)+(1-Y)σ(-Z)пY(Y)знак равноσ((2Y-1)Z)

{0,1}{-1,1}

Габриэль Ромон
источник