Вопрос: Каковы преимущества / недостатки использования одного перед другим для выбора переменных?
Предположим , у меня есть вероятность: , где можно поместить либо один из настоятелей: ш я ~ л & delta ; 0 + ( 1 - л ) N ( 0 , 100 )
Или:
ш я ~ ехр ( - А , | ш I | )
Я положил чтобы подчеркнуть, что большинство весов равны нулю, а гамма предшествует λ, чтобы выбрать параметр «регуляризации».
Тем не менее, мой профессор продолжает настаивать на том, что лассо-версия «сжимает» коэффициенты и на самом деле не делает правильный выбор переменной, то есть происходит чрезмерное сжатие даже соответствующих параметров.
bayesian
feature-selection
sachinruk
источник
источник
Ответы:
Оба эти метода (LASSO или spike-and-slab) могут быть интерпретированы как байесовские задачи оценки, когда вы задаете разные параметры. Одно из основных отличий состоит в том, что метод LASSO не ставит никакие точечные массы на ноль для априорных (т. Е. Параметры почти наверняка отличны от нуля априори), в то время как шип-сляб устанавливает значительную точечную массу на нуле.
По моему скромному мнению, главное преимущество метода «шип-и-плита» заключается в том, что он хорошо подходит для задач, в которых число параметров превышает количество точек данных , и вы хотите полностью исключить значительное количество параметров. от модели. Поскольку этот метод ставит большую точечную массу на ноль в предыдущем, он даст апостериорные оценки, которые имеют тенденцию включать только небольшую часть параметров, и, надеюсь, избежать чрезмерного соответствия данных.
Когда ваш профессор говорит вам, что первый не выполняет метод выбора переменной, он, вероятно, имеет в виду следующее. В LASSO каждый из параметров почти наверняка отличен от нуля априори (т. Е. Все они находятся в модели). Поскольку вероятность также ненулевая по сравнению с поддержкой параметров, это также будет означать, что каждое из них почти наверняка ненулевое априори (т. Е. Все они находятся в модели). Теперь вы можете дополнить это проверкой гипотез и таким образом исключить параметры из модели, но это будет дополнительный тест, наложенный поверх байесовской модели.
Результаты байесовской оценки будут отражать вклад данных и вклад предыдущих. Естественно, априорное распределение, которое более близко сконцентрировано вокруг нуля (как шип-и-сляб), действительно «сжимает» результирующие оценки параметров, по сравнению с априорным, который менее концентрирован (как LASSO). Конечно, это «сжатие» является просто следствием указанной вами ранее информации. Форма априора LASSO означает, что он сжимает все оценки параметров в сторону среднего значения по сравнению с арифметическим априором.
источник