Байесовская регрессия: как это делается по сравнению со стандартной регрессией?

57

У меня есть несколько вопросов о байесовской регрессии:

  1. Дана стандартная регрессия при . Если я хочу изменить это в байесовскую регрессию, нужно ли мне предварительные распределения для β 0 и β 1 (или это не работает таким образом)?y=β0+β1x+εβ0β1

  2. В стандартной регрессии можно попытаться минимизировать невязки, чтобы получить единичные значения для и β 1 . Как это делается в байесовской регрессии?β0β1


Я действительно много борюсь здесь:

posterior=prior×likelihood

Вероятность исходит из текущего набора данных (так что это мой параметр регрессии, но не как одно значение, а как распределение вероятностей, верно?). Приор происходит из предыдущего исследования (скажем). Итак, я получил это уравнение:

y=β1x+ε

с - моя вероятность или апостериор (или это просто неправильно)? β1

Я просто не могу понять, как стандартная регрессия превращается в байесовскую.

TinglTanglBob
источник

Ответы:

93

Простая модель линейной регрессии

yi=α+βxi+ε

может быть написано с точки зрения вероятностной модели позади него

μi=α+βxiyiN(μi,σ)

то есть зависимая переменная следует нормальному распределению, параметризованному средним μ i , то есть линейной функции X, параметризованной α , β и стандартным отклонением σ . Если вы оцениваете такую ​​модель, используя обычные наименьшие квадраты , вам не нужно беспокоиться о вероятностной формулировке, потому что вы ищете оптимальные значения параметров α , β , сводя к минимуму возведенные в квадрат ошибки согласованных значений до прогнозируемых значений. С другой стороны, вы могли бы оценить такую ​​модель, используя оценку максимального правдоподобияYμiXα,βσα,βгде вы будете искать оптимальные значения параметров путем максимизации функции правдоподобия

argmaxα,β,σi=1nN(yi;α+βxi,σ)

Nyiα+βxiσ

В байесовском подходе вместо максимизации только функции правдоподобия мы принимаем предварительные распределения для параметров и используем теорему Байеса.

posteriorlikelihood×prior

α,β,σ

f(α,β,σY,X)posteriori=1nN(yiα+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors

α,βtσ

Формулировка модели байесовской линейной регрессии

(источник: http://www.indiana.edu/~kruschke/BMLR/ )

В то время как с максимальной вероятностью вы искали одно оптимальное значение для каждого из параметров, в байесовском подходе, применяя теорему Байеса, вы получаете апостериорное распределение параметров. Окончательная оценка будет зависеть от информации, полученной из ваших данных и ваших априоров , но чем больше информации содержится в ваших данных, тем менее влиятельными являются априоры .

f(θ)1

Для оценки модели в байесовском подходе в некоторых случаях вы можете использовать сопряженные априорные значения , поэтому апостериорное распределение непосредственно доступно (см. Пример здесь ). Однако в подавляющем большинстве случаев апостериорное распределение не будет доступно напрямую, и вам придется использовать методы Марковской цепи Монте-Карло для оценки модели (см. Этот пример использования алгоритма Метрополиса-Гастингса для оценки параметров линейной регрессии). Наконец, если вас интересуют только точечные оценки параметров, вы можете использовать максимально апостериорную оценку , т.е.

argmaxα,β,σf(α,β,σY,X)

Для более подробного описания логистической регрессии вы можете проверить байесовскую модель логита - интуитивное объяснение? нить.

Для получения дополнительной информации вы можете проверить следующие книги:

Kruschke, J. (2014). Выполнение байесовского анализа данных: учебное пособие с использованием R, JAGS и Stan. Академическая пресса.

Гельман А., Карлин Дж. Б., Стерн Х.С. и Рубин Д.Б. (2004). Байесовский анализ данных. Чепмен и Холл / CRC.

Тим
источник
2
βiβi
2
+1. Еще одна вещь, на которую стоит обратить внимание, чтобы прояснить связь между байесовским и OLS-подходами, состоит в том, что OLS можно понимать как апостериорное среднее под плоским априором (по крайней мере, насколько я понимаю). Было бы здорово, если бы вы немного уточнили это в своем ответе.
говорит амеба: восстанови Монику
@amoeba, это хороший момент, я подумаю об этом. Но с другой стороны, я не хочу, чтобы ответ был слишком длинным, поэтому есть смысл вдаваться в детали.
Тим
1
@amoeba FYI, я добавил краткий комментарий по этому поводу.
Тим
22

D=(x1,y1),,(xN,yN)xRd,yR

wN(0,σw2Id)

w(w1,,wd)TIdd×d

YiN(wTxi,σ2)

YiYj|w,ij

a=1/σ2b=1/σw2a,b

p(w)exp{b2wtw}

p(D|w)exp{a2(yAw)T(yAw)}

y=(y1,,yN)TAn×dxiT

p(w|D)p(D|w)p(w)

После многих расчетов мы обнаруживаем, что

p(w|D)N(w|μ,Λ1)

Λ

Λ=aATA+bId
μ=aΛ1ATy

μwMAP

μΛ=aATA+bId

μ=(ATA+baId)1ATy

wMLE

wMLE=(ATA)1ATy

μλ=ba

Для прогнозирующего апостериорного распределения:

p(y|x,D)=p(y|x,D,w)p(w|x,D)dw=p(y|x,w)p(w|D)dw

можно рассчитать, что

y|x,DN(μTx,1a+xTΛ1x)

Ссылка: Lunn et al. Книга ЖУКОВ

Для использования инструмента MCMC, такого как JAGS / Stan, проверьте анализ данных Крушке « Байесовский анализ данных»

jpneto
источник
Спасибо, jpneto. Я чувствую, что это отличный ответ, но я пока не понимаю его из-за недостатка знаний по математике. Но я обязательно прочту это снова после получения некоторых математических навыков
TinglTanglBob
1
Это очень хорошо, но предположение, что точность известна, немного необычно. Разве не более распространено предположение, что для дисперсии используется обратное гамма-распределение, т. Е. Гамма-распределение для точности?
DeltaIV
w
wN(0,λ1Id)λ
1
@DeltaIV: конечно, когда у нас есть неопределенность в отношении параметра, мы можем смоделировать его с помощью априора. Предположение об известной точности состоит в том, чтобы упростить поиск аналитического решения. Обычно эти аналитические решения не возможны, и мы должны использовать приближения, такие как MCMC или некоторый вариационный метод.
января