LASSO для объяснительных моделей: сжатые параметры или нет?

9

Я провожу анализ, основной задачей которого является понимание данных. Набор данных достаточно велик для перекрестной проверки (10 КБ), и предикторы включают как непрерывные, так и фиктивные переменные, а результат - непрерывный. Главная цель состояла в том, чтобы увидеть, имеет ли смысл исключать некоторые предикторы, чтобы облегчить интерпретацию модели.

Вопросов:

  1. Мой вопрос «какие переменные объясняют результат и являются« достаточно сильной »частью этого объяснения». Но чтобы выбрать лямбда-параметр для лассо, вы используете перекрестную проверку, т.е. предиктивную достоверность в качестве критерия. Делая вывод, является ли предсказательная достоверность достаточно хорошим показателем для общего вопроса, который я задаю?

  2. Скажем, LASSO сохранил только 3 из 8 предикторов. И теперь я спрашиваю себя: «Как они влияют на результат». Например, я нашел гендерную разницу. После усадки лассо коэффициент предполагает, что женщины набирают на 1 балл выше, чем мужчины. Но без усадки (т. Е. Фактического набора данных) они набирают 2,5 балла выше.

    • Какой из них я бы выбрал своим «настоящим» гендерным эффектом? Если исходить только из прогнозирующей достоверности, это будет сокращенный коэффициент.
    • Или в контексте скажем, что я пишу отчет для людей, плохо разбирающихся в статистике. Какой коэффициент я бы им сообщил?
mbokulic
источник
1
На какую модель вы смотрите? Линейная, логистическая, пуассоновская и др. Модель?
TrynnaDoStat,
1
Это линейная модель, но я не думаю, что это имеет значение для вопроса
mbokulic

Ответы:

7

Если ваша цель - точно оценить параметры в вашей модели, то насколько вы близки к истинной модели, как вы должны выбрать свою модель. Предсказательная валидность с помощью перекрестной проверки является одним из способов сделать это и является предпочтительным способом для выбора в регрессии LASSO. λλ

Теперь, чтобы ответить на вопрос о том, какая оценка параметра является «реальной оценкой», нужно посмотреть, какой параметр «наиболее близок» к действительному значению параметра. Означает ли «ближайший» оценки параметров, которые минимизируют смещение? Если это так, то метод наименьших квадратов несмещен в линейной регрессии. Ближайшая средняя оценка параметра, которая минимизирует среднеквадратичную ошибку (MSE)? Затем можно показать, что существует спецификация регрессии гребня, которая даст вам оценки, которые минимизируют MSE (подобно LASSO, оценка регрессии гребня сжимает оценки до нуля, но, в отличие от LASSO, оценки параметров не достигают нуля). По аналогии,λ). Как статистик, вы должны определить, что является «наилучшей» оценкой, и сообщить о ней (желательно с некоторым указанием достоверности оценки) тем, кто плохо разбирается в статистике. То, что является «лучшим», может быть или не быть предвзятой оценкой.

glmnetλλ

λ

TrynnaDoStat
источник
Что вы имели в виду под «смещением» в «оценках параметров, которые минимизируют смещение»? И правильно ли я прочитал остальное, если прочитал это так: я должен выбрать модель, которая имеет наименьшее MSE вне выборки (т. Е. В перекрестной проверке)? Поскольку о гребне не может быть и речи, так как я хочу получить матрицу разреженных коэффициентов, сообщение о сокращенных коэффициентах Лассо
лучший
λ
интересно, я никогда не думал об этом таким образом. Я снова должен спросить, правильно ли я вас понял. Таким образом, линейная регрессия дает наиболее объективную оценку коэффициентов совокупности (пример «2,5 балла выше» в моем первоначальном вопросе). В то время как лассо или хребет регр. свести к минимуму MSE вне образца. Если это так, если вы просто хотите понять (а не предсказать), линейная регрессия кажется лучше, хотя вы все равно хотите упростить модель, например, пошаговыми методами.
mbokulic
ответы здесь полезны Они предполагают, что OLS (линейная регрессия) имеет лучшую производительность в выборке, тогда как лассо - вне выборки. Кроме того, они предполагают, что OLS может использоваться на ограниченном наборе предикторов, выбранных лассо. Это как раз то, что имеет смысл для моей цели интерпретации, даже если оценки OLS будут немного превышать.
mbokulic