Мне было интересно, почему методы выбора моделей LASSO и LARS так популярны, даже если они в основном представляют собой просто варианты пошагового прямого выбора (и, следовательно, страдают от зависимости пути)?
Точно так же, почему методы General to Specific (GETS) для выбора модели в основном игнорируются, даже если они работают лучше, чем LARS / LASSO, потому что они не страдают от проблемы пошаговой регрессии? (базовая ссылка на GETS: http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf - новейший алгоритм в этом начинается с широкого поиска модели и дерева, который избегает зависимости пути, и был показан для часто делают лучше, чем LASSO / LARS).
Просто кажется странным, LARS / LASSO, похоже, получают гораздо больше информации и ссылок, чем General to Specific (GETS), у кого-нибудь есть мысли?
Не пытаясь начать горячие дебаты, скорее ищите рациональное объяснение того, почему литература, кажется, фокусируется на LASSO / LARS, а не GETS, и мало кто на самом деле указывает на недостатки LASSO / LARS.
источник
Ответы:
Отказ от ответственности: я только отдаленно знаком с работой по выбору модели Дэвидом Ф. Хендри среди других. Однако я знаю от уважаемых коллег, что Хендри сделал очень интересный прогресс в решении проблем выбора моделей в эконометрике. Чтобы судить о том, что статистическая литература не уделяет достаточного внимания его работе по подбору моделей, потребовалось бы гораздо больше работы с моей стороны.
Тем не менее, интересно попытаться понять, почему один метод или идея генерирует гораздо больше активности, чем другие. Нет сомнений, что в науке тоже есть аспекты моды. На мой взгляд, у лассо (и его друзей) есть одно важное преимущество - решение очень легко выраженной проблемы оптимизации. Это ключ к детальному теоретическому пониманию решения и разработанным эффективным алгоритмам. Недавняя книга Bühlmann and Van De Geer « Статистика для многомерных данных » иллюстрирует, сколько уже известно о лассо.
Вы можете проводить бесконечные симуляционные исследования и, конечно, применять методы, которые вы считаете наиболее подходящими и подходящими для конкретного применения, но для частей статистической литературы также должны быть получены существенные теоретические результаты. То, что лассо вызвало большую активность, свидетельствует о том, что есть теоретические вопросы, к которым можно подойти, и у них есть интересные решения.
Другое дело, что лассо или вариация этого работает хорошо во многих случаях. Я просто не уверен, что правильно, что Лассо так легко превосходит другие методы, как предлагает ОП. Может быть, с точки зрения (искусственного) выбора модели, но не с точки зрения прогнозирующей эффективности. Кажется, что ни одна из упомянутых ссылок действительно не сравнивает Гетса и Лассо.
источник
Существует различие между выбором поднабора LASSO и (GETS): LASSO сжимает коэффициенты к нулю зависимым от данных способом, в то время как выбор поднабора (GETS) не делает. Похоже, это является преимуществом выбора подмножества LASSO over (GETS), даже если иногда он может потерпеть неудачу (требуется настройка параметров, что обычно выполняется с помощью перекрестной проверки, а иногда нам может случиться плохая настройка).
Производительность GETS, кажется, сопоставима по качеству с LASSO, когда она проводится беспристрастными (?) Исследователями (хотя это не обязательно так в статьях, где предлагается новая версия GETS - но это то, что вы ожидаете); увидеть некоторые ссылки в этой теме .
Возможно, сэр Хендри и Ко получают хорошие результаты, используя GETS из-за специфики своих приложений (в основном, моделирование временных макроэкономических рядов)? Но почему это может быть? Это отдельный вопрос .
источник