Тестирование на значимость коэффициентов в лассо логистической регрессии

10

[Подобный вопрос был задан здесь без ответов]

Я подобрал модель логистической регрессии с регуляризацией L1 (логистическая регрессия Лассо), и я хотел бы проверить соответствие значимых коэффициентов и получить их p-значения. Я знаю, что тесты Вальда (например) - это возможность проверить значимость отдельных коэффициентов в полной регрессии без регуляризации, но с Лассо я думаю, что возникают дополнительные проблемы, которые не позволяют применять обычные формулы Вальда. Например, оценки дисперсии, необходимые для теста, не соответствуют обычным выражениям. Оригинальная бумага Лассо

http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

предлагает процедуру начальной загрузки для оценки дисперсии коэффициентов, которая (опять же, я думаю) может понадобиться для тестов (раздел 2.5, последний абзац страницы 272 и начало 273):

Один из подходов - использование начальной загрузки: либо можно исправить , либо мы можем оптимизировать по для каждой выборки начальной загрузки. Фиксация аналогична выбору лучшего подмножества ( объектов ), а затем использованию стандартной ошибки наименьших квадратов для этого подмножестват тTTT

Я понимаю следующее: многократно подгонять регрессию Лассо ко всему набору данных до тех пор, пока мы не найдем оптимальное значение для параметра регуляризации (это не является частью начальной загрузки), а затем использовать только функции, выбранные лассо, для подгонки регрессий OLS к подвыборкам. данных и применять обычные формулы для вычисления отклонений от каждой из этих регрессий. (И что мне делать со всеми этими дисперсиями каждого коэффициента, чтобы получить окончательную оценку дисперсии каждого коэффициента?)

Кроме того, правильно ли использовать обычные критерии значимости (например, критерий Уолда, который использует оценочные бета-значения и дисперсии) с оценками коэффициентов Лассо и дисперсиями, оцененными с помощью начальной загрузки? Я абсолютно уверен, что это не так, но любая помощь (используйте другой тест, используйте более простой подход, что бы ни было ...) более чем приветствуется.

Согласно ответам здесь, я подозреваю, что вывод и p-значения просто не могут быть получены. В моем случае p-значения являются внешним требованием (хотя использование регуляризации L1 было моим выбором).

большое спасибо

РЕДАКТИРОВАТЬ Что делать, если я подгоняю логистическую регрессию OLS, используя только переменные, выбранные предыдущим прогоном логистической регрессии Лассо? Видимо (см. Здесь ),

Нет необходимости снова запускать модель после выполнения перекрестной проверки (вы просто получаете коэффициенты из выходных данных cv.glmnet), и на самом деле, если вы подходите к новой модели логистической регрессии без штрафных санкций, вы побеждаете цель использования лассо

Но что, если я сделаю это с единственной целью: вычислить p-значения, сохраняя при этом небольшое количество переменных? Это очень грязный подход? :-)

Pablo
источник
Чтобы сделать вывод для моделей LASSO, вы также можете проверить пакет CRI hdi, который обеспечивает вывод для многомерных моделей, возможно, вы захотите взглянуть на это ...
Том Венселерс
Полные методы хорошо описаны в этой статье: projecteuclid.org/euclid.ss/1449670857
Том Венселерс,
И есть также пакет cran.r-project.org/web/packages/selectiveInference/index.html, который может быть полезен для предоставления вывода для LASSO ...
Том Венселерс
Это хороший и важный вопрос.
Цзиньхуа Ван,

Ответы:

5

Проблема с использованием обычных тестов значимости состоит в том, что они принимают нулевое значение, что есть случайные переменные, не имеющие отношения к исходным переменным. Однако то, что вы имеете с лассо, это набор случайных величин, из которых вы выбираете лучшие с помощью лассо, также бета-версии сокращаются. Таким образом, вы не можете использовать его, результаты будут предвзятыми.

Насколько я знаю, бутстрап используется не для оценки дисперсии, а для получения вероятностей выбранной переменной. И это ваши р-значения. Посмотрите на бесплатную книгу Хаси «Статистическое обучение с редкостью», в главе 6 говорится об одном и том же. http://web.stanford.edu/~hastie/StatLearnSparsity/

Также проверьте этот документ для некоторых других способов получить p-значения от лассо https://arxiv.org/pdf/1408.4026.pdf Возможно, есть еще

rep_ho
источник
4

N

К счастью, в последние годы был достигнут значительный прогресс в разработке методов вывода, которые учитывают последующий отбор. Некоторые соответствующие ссылки для вашего случая: http://projecteuclid.org/euclid.aos/1460381681 и https://arxiv.org/pdf/1602.07358.pdf . Методы, обсуждаемые в этих ссылках, реализованы в пакете R selectedInference- https://cran.r-project.org/web/packages/selectiveInference/index.html . Пакет selectedInference должен выдавать нужные вам доверительные интервалы.

user3903581
источник
1
В специализации машинного обучения в Coursera Univ. В Вашингтоне преподаватели курса 2 (Регрессия) посвятили целую неделю регрессии Лассо. На одном из слайдов описанная мною процедура (с использованием Лассо для выбора признаков и затем подгонки регрессии LS только с этими переменными) обозначается как сглаживание и считается правильной и иллюстрируется графиками из статьи Марио Фигейредо. Проверьте слайд 105 здесь: github.com/MaxPoon/coursera-Machine-Learning-specialization/…
Пабло
Хотя они рекомендуют ослаблять лассо, они вообще не обсуждают проверку гипотез. Кроме того, термин «смещение» вводит в заблуждение, потому что, хотя переоснащение модели избавляет от смещения вниз, вызванного лассо, оно не помогает с смещением вверх, вызванным проклятием победителя. Насколько я знаю, единственный способ действительно сместить оценки коэффициента регрессии выбранной модели - это вычислить условные оценки максимального правдоподобия. arxiv.org/abs/1705.09417
user3903581