Ожидаемое значение гауссовской случайной величины, преобразованной с помощью логистической функции

10

И логистическая функция, и стандартное отклонение обычно обозначаются . Я буду использовать и для стандартного отклонения.σσ(x)=1/(1+exp(x))s

У меня есть логистический нейрон со случайным входом которого среднего и стандартное отклонение я знаю. Я надеюсь, что разница от среднего значения может быть хорошо аппроксимирована некоторым гауссовским шумом. Итак, с небольшим злоупотреблением обозначениями предположим, что он производит . Каково ожидаемое значение ? Стандартное отклонение может быть большим или маленьким по сравнению с или . Хорошее приближение замкнутой формы для ожидаемого значения будет почти таким же хорошим, как и решение замкнутой формы.μsσ(μ+N(0,s2))=σ(N(μ,s2))σ(N(μ,s2))sμ1

Я не думаю, что существует решение в закрытой форме. Это можно рассматривать как свертку, и характерная функция для логистической плотности известна ( ), но я не уверен, насколько это поможет. Обратный символический калькулятор не смогло распознать плотность при свертке плотности логистического дистрибутиву и стандартного нормального распределения, который наводит на мысль , но не доказывает , что не существует простого элементарный интеграл. Более косвенные доказательства: в некоторых статьях о добавлении гауссовского входного шума в нейронные сети с логистическими нейронами в работах также не было выражений в замкнутой форме.0πt csch πt0

Этот вопрос возник при попытке понять ошибку в приближении среднего поля в машинах Больцмана.

Дуглас Заре
источник

Ответы:

5

Вот что я в итоге использовал:

Напишите где . Мы можем использовать разложение в ряд Тейлора.X N ( 0 , s 2 )σ(N(μ,s2))=σ(μ+X)XN(0,s2)

σ(μ+X)=σ(μ)+Xσ(μ)+X22σ(μ)+...+Xnn!σ(n)(μ)+...

E[σ(μ+X)]=E[σ(μ)]+E[Xσ(μ)]+E[X22σ(μ)]+...=σ(μ)+0+s22σ(μ)+0+3s424σ(4)(μ)+...+s2k2kk!σ(2k)(μ)...

Есть проблемы сходимости. У логистической функции есть полюс, где , поэтому при , нечетно. Расхождение не то же самое, что префикс бесполезный, но это приближение ряда может быть ненадежным, когда является значительным.exp(x)=1x=kπikP(|X|>μ2+π2)

Поскольку , мы можем записать производные как полиномы в . Например, и . Коэффициенты связаны с OEIS A028246 .σ(x)=σ(x)(1σ(x))σ(x)σ(x)σ=σ3σ2+2σ3σ=σ7σ2+12σ36σ4

Дуглас Заре
источник
4

Здесь у вас есть случайная переменная, которая следует логит-нормальному (или логистически-нормальному) распределению (см. Википедию ), то есть . Моменты логит-нормального распределения не имеют аналитических решений.logit[x]N(μ,s2)

Но, конечно, их можно получить с помощью численного интегрирования. Если вы используете R, есть пакет logitnorm , в котором есть все, что вам нужно. Пример:

install.packages("logitnorm")
library(logitnorm)
momentsLogitnorm(mu=1, sigma=2)

Это дает:

> momentsLogitnorm(mu=1, sigma=2)
      mean        var 
0.64772644 0.08767866

Таким образом, есть даже вспомогательная функция, которая непосредственно даст вам среднее значение и дисперсию.

Wolfgang
источник