У меня есть набор данных с тремя переменными, где все переменные являются количественными. Давайте назовем это , и . Я подгоняю регрессионную модель в байесовской перспективе через MCMC сх 1 х 2rjags
Я сделал предварительный анализ, и график рассеяния подсказывает, что следует использовать квадратичный термин. Тогда я установил две модели
(1)
(2)
В модели 1 величина эффекта каждого параметра не мала, и в вероятном интервале 95% не содержится значение .
В модели 2 величина эффекта параметров и мала, и каждый из вероятных интервалов для всех параметров содержит .β 4 0
Тот факт, что достоверный интервал содержит достаточно, чтобы сказать, что параметр не является значимым?
Затем я настроил следующую модель
(3)
Размер эффекта каждого параметра не мал, но за исключением все вероятные интервалы содержат . 0
Как правильно выбирать переменные в байесовской статистике?
РЕДАКТИРОВАТЬ: я могу использовать Лассо в любой регрессионной модели, как бета-модель? Я использую модель с переменной дисперсией, где где - вектор. Я должен использовать Laplace до в тоже?δ
РЕДАКТИРОВАТЬ 2: Я установил две модели, одну с априорным гауссовым для , δ j и одну с Лапласом (двойная экспонента).
Оценки для гауссовой модели
Mean SD Naive SE Time-series SE
B[1] -1.17767 0.07112 0.0007497 0.0007498
B[2] -0.15624 0.03916 0.0004128 0.0004249
B[3] 0.15600 0.05500 0.0005797 0.0005889
B[4] 0.07682 0.04720 0.0004975 0.0005209
delta[1] -3.42286 0.32934 0.0034715 0.0034712
delta[2] 0.06329 0.27480 0.0028966 0.0028969
delta[3] 1.06856 0.34547 0.0036416 0.0036202
delta[4] -0.32392 0.26944 0.0028401 0.0028138
Оценки для модели Лассо являются
Mean SD Naive SE Time-series SE
B[1] -1.143644 0.07040 0.0007421 0.0007422
B[2] -0.160541 0.05341 0.0005630 0.0005631
B[3] 0.137026 0.05642 0.0005947 0.0005897
B[4] 0.046538 0.04770 0.0005028 0.0005134
delta[1] -3.569151 0.27840 0.0029346 0.0029575
delta[2] -0.004544 0.15920 0.0016781 0.0016786
delta[3] 0.411220 0.33422 0.0035230 0.0035629
delta[4] -0.034870 0.16225 0.0017103 0.0017103
lambda 7.269359 5.45714 0.0575233 0.0592808
Оценки для и δ 4 значительно уменьшились в модели Лассо, это означает, что я должен удалить эти переменные из модели?
Ответы:
Хорошо известно, что построение модели на основе того, что является значимым (или какого-либо другого критерия, такого как AIC, содержит ли вероятный интервал 0 и т. Д.), Довольно проблематично, особенно если вы делаете вывод, как если бы вы не делали построение модели. Выполнение байесовского анализа не меняет этого (см. Также https://stats.stackexchange.com/a/201931/86652 ). Т.е. вы должны делать не выбор переменных, а скорее усреднение модели (или что-то, что может дать вам нулевые коэффициенты, но отражает весь процесс моделирования, такой как LASSO или эластичная сеть).
В качестве альтернативы вы можете выразить усреднение модели как априор, который представляет собой смесь между точечной массой (вес точечной массы - это априорная вероятность того, что эффект равен нулю = эффект отсутствует в модели) и непрерывным распределением (например, колючие приоры). Отбор проб MCMC может быть довольно трудным для такого априора.
Carvalho и соавт. мотивируйте усадку подковы, предполагая, что она работает как непрерывное приближение к прибору с шипами и плитами. Это также случай встраивания проблемы в иерархическую модель, где в некоторой степени размер и наличие эффектов на некоторые переменные немного ослабляют необходимые доказательства для других (через глобальный параметр сжатия это немного похоже на ложное обнаружение). контроль скорости) и, с другой стороны, позволяют отдельным эффектам действовать самостоятельно, если доказательства достаточно ясны. Его удобная реализация доступна в пакете brms R, основанном на Stan / rstan . Существует ряд других подобных приоров, таких как подкова + априор, и эта тема является областью постоянных исследований.
источник
Существует ряд формальных методов выбора байесовских переменных. Несколько устаревший обзор методов отбора байесовских переменных представлен в:
Обзор методов выбора байесовских переменных: что, как и что
Более свежий обзор, который также включает сравнение различных методов и производительности пакетов R, в которых они реализованы:
Методы и инструменты для выбора байесовской переменной и усреднения модели в одномерной линейной регрессии
Эта ссылка особенно полезна в том смысле, что она указывает на конкретные пакеты R, где вам просто нужно подключить ответ и ковариатные значения (а в некоторых случаях значения гиперпараметра) для запуска выбора переменных.
Другой, быстрый, грязный и не рекомендуемый способ проведения «байесовской» выборки переменных заключается в использовании пошагового выбора (вперед, назад, оба) с использованием BIC и команды R stepAIC (), которые можно настроить для выполнения выбора с точки зрения BIC.
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html
https://arxiv.org/pdf/0910.1452.pdf
источник
"In this case is reasonable say that $\beta_4\neq 0$"
? а"Which is the right way to do variable selection in Bayesian statistics"
?Вы также можете найти хорошую лекцию на эту тему здесь, в 41:55:
https://vimeo.com/14553953
источник