Предположим, я хочу регрессировать против нормализованного X , но я бы хотел разреженного решения. Почему после регрессии недопустимо отбрасывать коэффициенты с наименьшей величиной?
Для протокола, я слышал и часто использую методы LARS и LASSO. Мне просто любопытно, почему вышеуказанный подход не применим.
regression
regression-coefficients
Cam.Davidson.Pilon
источник
источник
Ответы:
Не было бы проблем, если бы был ортонормированным. Тем не мение,X возможность сильной корреляции между объясняющими переменными должна дать нам паузу.
При рассмотрении геометрической интерпретации регрессии наименьших квадратов легко найти контрпримеры. Возьмем , скажем, почти нормально распределенные коэффициенты, а X 2 - почти параллельные ему. Пусть X 3 ортогональна плоскости, порожденной X 1 и X 2 . Мы можем представить Y, который находится в основном в направлении X 3 , но смещен относительно незначительно от начала координат в плоскости X 1 , X 2 . Потому что Х 1 иX1 X2 X3 X1 X2 Y X3 X1,X2 X1 X2 почти параллельны, его компоненты в этой плоскости могут иметь оба больших коэффициента, что приводит к падению , что было бы огромной ошибкой.X3
Геометрия может быть воссоздана с помощью симуляции, такой как выполняется с помощью следующих
R
расчетов:Матрица диаграммы рассеяния раскрывает все:
источник
Сдается мне, что, если предполагаемый коэффициент близок к 0 и данные нормализованы, прогнозирование не пострадает при отбрасывании переменной. Конечно, если бы коэффициент не был статистически значимым, то, казалось бы, проблем не было. Но это должно быть сделано осторожно. IV могут быть соотнесены, и удаление одного может изменить коэффициенты других. Это становится более опасным, если вы начнете восстанавливать несколько переменных таким образом. Процедуры выбора подмножества разработаны, чтобы избежать таких проблем и использовать разумные критерии для включения и исключения переменных. Если вы спросите Фрэнка Харрелла, он будет против пошаговых процедур. Вы упоминаете LARS и LASSO, которые являются двумя очень современными методами. Но есть много других, в том числе информационных критериев, которые дают представление о слишком большом количестве переменных.
Если вы попробуете процедуру выбора подмножества, которая была тщательно изучена с большим количеством литературы об этом, вы, вероятно, обнаружите, что это приведет к решению, которое восстанавливает переменные с небольшими коэффициентами, особенно если они не проходят тест на статистически значимое отличие от 0.
источник