Интерпретация коэффициентов регрессии LASSO

12

В настоящее время я работаю над созданием прогнозирующей модели для двоичного результата на наборе данных с ~ 300 переменными и 800 наблюдениями. Я много читал на этом сайте о проблемах, связанных со ступенчатой ​​регрессией, и почему бы не использовать ее.

Я изучал регрессию LASSO и ее способность выбирать функции и успешно реализовал ее с использованием пакета «caret» и «glmnet».

Я умею извлекать коэффициент модели с оптимальным lambdaи alphaиз "карета"; Однако я не знаю, как интерпретировать коэффициенты.

  • Коэффициенты LASSO интерпретируются тем же методом, что и логистическая регрессия?
  • Было бы целесообразно использовать функции, выбранные из LASSO, в логистической регрессии?

РЕДАКТИРОВАТЬ

Интерпретация коэффициентов, как в возведенных в степень коэффициентов из регрессии LASSO, в качестве логарифмов для изменения коэффициента на 1 единицу при сохранении всех остальных коэффициентов постоянными.

https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

Майкл Луу
источник
Можете ли вы немного объяснить, что вы подразумеваете под «интерпретацией таким же образом, как логистическая регрессия»? Мне было бы очень полезно точно знать, какие интерпретации вы хотите обобщить.
Мэтью Друри
1
@ Мэтью Друри - Большое спасибо за то, что уделили мне время, потому что моя курсовая работа никогда не выходила за рамки LASSO. В целом, исходя из того, чему меня учили в аспирантуре, возведенные в степень коэффициенты логистической регрессии дают логарифмические коэффициенты увеличения коэффициента на 1 единицу при сохранении всех остальных коэффициентов постоянными.
Майкл Луу
1
В "Caret" вы выбираете и . Откуда берется ? Вероятно, это гиперпараметр эластичной сетки (относительный вес LASSO против штрафа за ребро) (в этом случае вы фактически использовали бы эластичную сеть, а не LASSO)? λ ααλα
Ричард Харди
Насколько я могу судить, проверка значимости коэффициентов не была введена в большинстве реализаций LASSO. Так может ли быть различие не в том, что, хотя мы можем определять статистически значимые переменные в OLS, мы не можем сделать это с LASSO, кроме как сделать более слабое утверждение о том, что коэффициенты LASSO соответствующих выбранных переменных являются «важными» переменными, которые следует учитывать?
Божья скорость

Ответы:

13

Коэффициенты LASSO интерпретируются тем же методом, что и логистическая регрессия?

Позвольте мне перефразировать: интерпретируются ли коэффициенты LASSO таким же образом, как, например, коэффициенты максимального правдоподобия OLS в логистической регрессии?

LASSO (штрафной метод оценки) нацелен на оценку тех же величин (модельных коэффициентов), что и, скажем, максимальная вероятность OLS (непенализованный метод). Модель такая же, а интерпретация остается прежней. Числовые значения от LASSO обычно отличаются от значений максимального правдоподобия OLS : некоторые будут ближе к нулю, другие будут точно равны нулю. Если было применено разумное количество штрафов, оценки LASSO будут лежать ближе к истинным значениям, чем оценки максимального правдоподобия OLS , что является желательным результатом.

Было бы целесообразно использовать функции, выбранные из LASSO, в логистической регрессии?

С этим нет никаких проблем, но вы можете использовать LASSO не только для выбора характеристик, но и для оценки коэффициентов. Как я упоминал выше, оценки LASSO могут быть более точными, чем, скажем, оценки максимального правдоподобия OLS .

Ричард Харди
источник
Большое спасибо за этот ответ! Имеет много смысла! Пожалуйста, извините мои ограниченные знания в этом вопросе. Как вы упомянули в другом комментарии, я могу использовать эластичную сетку, а не LASSO через каретку, поскольку она выбирает оптимальные лямбда и альфа. Будет ли то же самое применяться в отношении коэффициентов?
Майкл Луу
Да, это так. Основная логика остается прежней.
Ричард Харди
Вы пишете "интерпретация остается прежней". Не могли бы вы помочь мне понять этот момент? Мне кажется, что интерпретация коэффициентов МНК в условиях множественной регрессии основана на графиках частичной регрессии . Однако это свойство не выполняется для коэффициентов Лассо, что позволяет мне полагать, что интерпретация будет иной.
user795305
1
@Ben, если мы примем базовую статистическую модель, мы можем оценить ее параметры различными способами, двумя из которых являются OLS и lasso. Оценочные коэффициенты нацелены на одни и те же цели, и оба имеют некоторую погрешность оценки (которая, если возводится в квадрат, может быть разложена на смещение и дисперсию), поэтому в этом смысле их интерпретация одинакова. Теперь, конечно, методы не одинаковы, поэтому вы получите разные оценочные значения коэффициентов. Если вам небезразличны методы и их алгебраические и геометрические интерпретации, то это не одно и то же. Но предметные интерпретации одинаковы.
Ричард Харди
@RichardHardy А, ладно, думаю, я лучше понимаю, что ты говоришь. Конечно, это правда, что лассо может побить OLS в ошибке оценки, но, в конце концов, как вы говорите, это всего лишь оценки для одной и той же цели. Будет ли любой оценщик интерпретироваться так же, как OLS? Например, будет ли (неслучайный) оценщик интерпретироваться таким образом? или оценщик с iid равномерной (0,1) записи? (и т. д.) Мне кажется (мне), что свойства оценщика должны быть непосредственно использованы при его интерпретации, и даже предметные интерпретации изменились бы. (1,,p)T
user795305