Байесовское лассо против шипа и плиты

14

Вопрос: Каковы преимущества / недостатки использования одного перед другим для выбора переменных?

Предположим , у меня есть вероятность: , где можно поместить либо один из настоятелей: ш я ~ л & delta ; 0 + ( 1 - л ) N ( 0 , 100 )

yN(Xw,σ2I)
Или: ш я ~ ехр ( - А , | ш I | )
wiπδ0+(1π)N(0,100)π=0.9,
wiexp(λ|wi|)λΓ(1,1).

Я положил чтобы подчеркнуть, что большинство весов равны нулю, а гамма предшествует λ, чтобы выбрать параметр «регуляризации».π=0.9λ

Тем не менее, мой профессор продолжает настаивать на том, что лассо-версия «сжимает» коэффициенты и на самом деле не делает правильный выбор переменной, то есть происходит чрезмерное сжатие даже соответствующих параметров.

1|wi|

sachinruk
источник
4
Ваш профессор прав, что сужает соответствующие параметры, ну и что? Это только уменьшает их до такой степени, что они не вносят существенного вклада в уменьшение ошибки. И зачем сосредотачиваться на правильном выборе переменных? Не следует ли сосредоточиться на уменьшении (тестовой) ошибки
seanv507
Для большинства проблем да я бы согласился. Однако для некоторых проблем (например, выявление рака с помощью экспрессии генов) очень важно выяснить, какие особенности являются способствующими факторами. PS С тех пор я перешел от моего постдока, так как он идиот. Машинное обучение ftw !!!
sachinruk
Spike и Slab - золотой стандарт в выборе переменных, и я также предпочитаю работать с LASSO. @Sachin_ruk: до шипов и слябов можно также использовать вариационный байесовский
Сандипан Кармакар
@SandipanKarmakar не могли бы вы опубликовать ссылку, относящуюся к шипу и плиты с вариационной Байеса.
sachinruk
Ваш вопрос объединяет проблемы моделирования [какой приоритет?] И реализации [вариационный байесовский]. Они должны обрабатываться отдельно.
Сиань

Ответы:

3

Оба эти метода (LASSO или spike-and-slab) могут быть интерпретированы как байесовские задачи оценки, когда вы задаете разные параметры. Одно из основных отличий состоит в том, что метод LASSO не ставит никакие точечные массы на ноль для априорных (т. Е. Параметры почти наверняка отличны от нуля априори), в то время как шип-сляб устанавливает значительную точечную массу на нуле.

По моему скромному мнению, главное преимущество метода «шип-и-плита» заключается в том, что он хорошо подходит для задач, в которых число параметров превышает количество точек данных , и вы хотите полностью исключить значительное количество параметров. от модели. Поскольку этот метод ставит большую точечную массу на ноль в предыдущем, он даст апостериорные оценки, которые имеют тенденцию включать только небольшую часть параметров, и, надеюсь, избежать чрезмерного соответствия данных.

Когда ваш профессор говорит вам, что первый не выполняет метод выбора переменной, он, вероятно, имеет в виду следующее. В LASSO каждый из параметров почти наверняка отличен от нуля априори (т. Е. Все они находятся в модели). Поскольку вероятность также ненулевая по сравнению с поддержкой параметров, это также будет означать, что каждое из них почти наверняка ненулевое априори (т. Е. Все они находятся в модели). Теперь вы можете дополнить это проверкой гипотез и таким образом исключить параметры из модели, но это будет дополнительный тест, наложенный поверх байесовской модели.

Результаты байесовской оценки будут отражать вклад данных и вклад предыдущих. Естественно, априорное распределение, которое более близко сконцентрировано вокруг нуля (как шип-и-сляб), действительно «сжимает» результирующие оценки параметров, по сравнению с априорным, который менее концентрирован (как LASSO). Конечно, это «сжатие» является просто следствием указанной вами ранее информации. Форма априора LASSO означает, что он сжимает все оценки параметров в сторону среднего значения по сравнению с арифметическим априором.

Бен - Восстановить Монику
источник