Немного больше информации; Предположим, что
- вы знаете заранее, сколько переменных выбрать и что вы установили штраф за сложность в процедуре LARS, чтобы иметь ровно столько переменных с ненулевыми коэффициентами,
- вычислительные затраты не являются проблемой (общее количество переменных мало, скажем, 50),
- что все переменные (у, х) непрерывны.
В какой настройке модель LARS (т. Е. Подгонка OLS тех переменных, которые имеют ненулевые коэффициенты в подгонке LARS) будет наиболее отличаться от модели с тем же числом коэффициентов, но найденной с помощью исчерпывающего поиска (a la regsubsets ())?
Редактировать: я использую 50 переменных и 250 наблюдений с реальными коэффициентами, взятыми из стандартного гауссиана, за исключением 10 переменных, имеющих «реальные» коэффициенты 0 (и все особенности сильно коррелируют друг с другом). Эти настройки явно не хороши, так как различия между двумя наборами выбранных переменных незначительны. Это действительно вопрос о том, какой тип конфигурации данных следует моделировать, чтобы получить наибольшее количество различий.
источник
Чем больше у вас функций по отношению к количеству выборок, тем больше вы сможете получить более точную аппроксимацию с помощью метода исчерпывающего поиска, чем с LARS. Термин наказания, используемый в LARS, налагает вложенную структуру все более сложных моделей, индексируемых одним параметром регуляризации, поэтому «степени свободы» выбора признаков с помощью LARS довольно низки. Для исчерпывающего поиска фактически существует одна (двоичная) степень свободы на элемент, что означает, что при исчерпывающем поиске лучше использовать случайную изменчивость в критерии выбора признаков из-за случайной выборки данных. В результате модель исчерпывающего поиска, скорее всего, будет строго соответствовать критерию выбора признаков, поскольку «класс гипотез» больше.
источник