Я читал эту статью, связанную с эластичной сеткой. Они говорят, что они используют эластичную сеть, потому что, если мы просто используем Лассо, это имеет тенденцию выбирать только один предиктор среди предикатов, которые сильно коррелируют. Но разве это не то, что мы хотим. Я имею в виду, что это избавляет нас от проблемы мультиколлинеарности, не так ли?
Предположим, что два предиктора сильно влияют на ответ, но сильно коррелируют в выборке, из которой вы строите свою модель. Если вы исключите один из модели, он не будет хорошо предсказывать выборки из аналогичных групп населения, в которых предикторы не имеют высокой корреляции.
Если вы хотите повысить точность ваших оценок коэффициентов при наличии мультиколлинеарности, вы должны внести небольшое смещение, компенсируя его большим уменьшением дисперсии. Одним из способов является полное удаление предикторов - с помощью LASSO или, в старые времена, пошаговые методы - что устанавливает их оценки коэффициентов на ноль. Другой способ состоит в том, чтобы сместить все оценки немного - с регрессией гребня или, в старые времена, с регрессом на первых нескольких основных компонентах. Недостатком первого является то, что очень небезопасно, если модель будет использоваться для прогнозирования откликов для шаблонов предикторов, отличных от тех, которые имели место в исходной выборке, так как предикторы, как правило, исключаются только потому, что они мало используются вместе с другими, почти коллинеарны, предикторы, (Не то, чтобы экстраполяция всегда была полностью безопасной.) Эластичная сеть представляет собой смесь двух, как объясняет @ user12436, и стремится сохранить группы коррелированных предикторов в модели.
Почему это не будет хорошо предсказывать в этом новом образце?
user31820
1
Потому что в модели отсутствует важный предсказатель.
Scortchi - Восстановить Монику
2
Если два предиктора коррелируют в одной репрезентативной выборке из популяции, не должны ли они коррелироваться в другой выборке? Если вы используете модель для данных, которая «отличается от тех, что были в исходном образце», разве это не граничит с недопустимым использованием какой-либо модели?
Мэтью Друри
@MatthewDrury: Хорошо, если модель «правильная» - если нет ненаблюдаемых мешающих факторов, о которых стоит беспокоиться, и если функциональная форма экстраполируема - тогда распределение предикторов в выборке не имеет значения (хотя, конечно, оно определяет точность оценки и прогнозы). Таким образом, в одном крайнем случае у вас может быть механистическая модель, построенная на данных хорошо контролируемого экспериментального исследования причинных факторов; с другой - эмпирическая модель, основанная на данных, собранных в результате наблюдательного исследования группы переменных, которые было просто измерить.
Scortchi - Восстановить Монику
Фраза: « в старые времена пошаговые методы
вызывали у
4
Но разве это не то, что мы хотим. Я имею в виду, что это избавляет нас от проблемы мультиколлинеарности, не так ли?
Да! и нет. Эластичная сеть представляет собой комбинацию двух методов регуляризации: регуляризации L2 (используется в регрессии гребня) и регуляризации L1 (используется в LASSO).
Лассо создает естественные разреженные модели, то есть большинство переменных коэффициентов будут сокращены до 0 и фактически исключены из модели. Таким образом, наименее значимые переменные сжимаются, прежде чем сжиматься другие, в отличие от гребня, где все переменные сжимаются, в то время как ни одна из них действительно не сжимается до 0.
Эластичная сеть использует линейную комбинацию обоих этих подходов. Конкретный случай, упомянутый Хасти при обсуждении метода, был в случае больших p, малых n. Что означает: данные большого размера с относительно небольшим количеством наблюдений. В этом случае LASSO (как сообщается) будет выбирать только не более n переменных, исключая при этом все остальные, см. Статью Хасти .
Это всегда будет зависеть от фактического набора данных, но вы можете себе представить, что вы не всегда хотите, чтобы верхний предел количества переменных в ваших моделях был равен или меньше, чем количество ваших наблюдений.
Но как насчет мультиколлинеарности. Эластичная сеть позволяет выбирать мультиколлинеарные функции, что не хорошо, не так ли?
user31820
Я не думаю, что многие реальные наборы данных имеют совершенно мультиколлинеарные переменные. Высококоррелированные переменные могут быть почти коллинеарными, что по-прежнему является проблемой, но которую вы, возможно, захотите принять, если они обе важны для вашей модели.
Как Lasso, так и Elastic Net являются эффективными методами для выбора переменных или признаков в условиях многомерных данных (гораздо больше переменных, чем у пациентов или образцов; например, 20000 генов и 500 образцов опухолей).
Хасти и другие продемонстрировали, что Elastic Net может выиграть у Лассо, когда данные сильно коррелированы. Лассо может просто выбрать одну из коррелированных переменных, и ему все равно, какая из них выбрана. Это может быть проблемой, когда требуется проверить выбранные переменные в независимом наборе данных. Переменная, выбранная Лассо, может быть не лучшим предиктором среди всех коррелированных переменных. Эластичная сеть решает эту проблему путем усреднения высоко коррелированных переменных.
Да! и нет. Эластичная сеть представляет собой комбинацию двух методов регуляризации: регуляризации L2 (используется в регрессии гребня) и регуляризации L1 (используется в LASSO).
Лассо создает естественные разреженные модели, то есть большинство переменных коэффициентов будут сокращены до 0 и фактически исключены из модели. Таким образом, наименее значимые переменные сжимаются, прежде чем сжиматься другие, в отличие от гребня, где все переменные сжимаются, в то время как ни одна из них действительно не сжимается до 0.
Эластичная сеть использует линейную комбинацию обоих этих подходов. Конкретный случай, упомянутый Хасти при обсуждении метода, был в случае больших p, малых n. Что означает: данные большого размера с относительно небольшим количеством наблюдений. В этом случае LASSO (как сообщается) будет выбирать только не более n переменных, исключая при этом все остальные, см. Статью Хасти .
Это всегда будет зависеть от фактического набора данных, но вы можете себе представить, что вы не всегда хотите, чтобы верхний предел количества переменных в ваших моделях был равен или меньше, чем количество ваших наблюдений.
источник
Как Lasso, так и Elastic Net являются эффективными методами для выбора переменных или признаков в условиях многомерных данных (гораздо больше переменных, чем у пациентов или образцов; например, 20000 генов и 500 образцов опухолей).
Хасти и другие продемонстрировали, что Elastic Net может выиграть у Лассо, когда данные сильно коррелированы. Лассо может просто выбрать одну из коррелированных переменных, и ему все равно, какая из них выбрана. Это может быть проблемой, когда требуется проверить выбранные переменные в независимом наборе данных. Переменная, выбранная Лассо, может быть не лучшим предиктором среди всех коррелированных переменных. Эластичная сеть решает эту проблему путем усреднения высоко коррелированных переменных.
источник