Я, вероятно, имею дело с проблемой, которая, вероятно, была решена сто раз прежде, но я не уверен, где найти ответ.
При использовании логистической регрессии, учитывая многие функции и пытаясь предсказать двоичное категориальное значение y , я заинтересован в выборе подмножества признаков, которые хорошо предсказывают y .
Есть ли процедура, похожая на лассо, которую можно использовать? (Я видел только лассо, используемое для линейной регрессии.)
Является ли рассмотрение коэффициентов подобранной модели показателем важности различных функций?
Правка - Разъяснения после просмотра некоторых ответов:
Когда я имею в виду величину установленных коэффициентов, я имею в виду те, которые соответствуют нормализованным (среднее 0 и дисперсия 1) характеристикам. В противном случае, как указывает @probabilityislogic, 1000x будет казаться менее важным, чем x.
Я не заинтересован в том, чтобы просто найти лучшее k-подмножество (как предлагал @Davide), а скорее взвесил важность различных функций относительно друг друга. Например, одна функция может быть «возраст», а другая функция «возраст> 30». Их возрастающее значение может быть небольшим, но оба могут быть важными.
источник
Ответ на ваш последний вопрос - плоский НЕТ. Величина коэффициентов никоим образом не является показателем важности. Лассо можно использовать для логистической регрессии. Вы должны изучить область более усердно. Методы, которые вам нужно изучить, включают в себя «штрафные» методы. Если вы ищете методы обнаружения, которые раскрывают «затененные» предикторы, термин, который может быть определен где-то, но не является общепринятым, то вам нужно искать методы, которые проверяют взаимодействия и нелинейную структуру в пространстве предиктора и связь результатов с этим пространством. Об этих проблемах и методах довольно много говорится в тексте Фрэнка Харрелла «Стратегии регрессионного моделирования».
Стратегия обратного выбора не даст действительных результатов (хотя она и дает результаты). Если вы рассмотрели случай 20 случайных предикторов для 100 событий, вы, вероятно, найдете 2 или 3, которые будут выбраны с помощью процесса обратного выбора. Распространенность обратного выбора в реальном мире отражает не тщательную статистическую мысль, а скорее ее легкую доступность в SAS и SPSS и отсутствие изощренности пользовательской базы этих продуктов. Пользовательской базе R труднее получить доступ к таким методам и пользователям, которые публикуют запросы в списках рассылки, и поэтому они, как правило, получают информацию о проблемах, связанных с методами обратного (или прямого) выбора.
источник
Английский не мой родной язык, поэтому я, возможно, не понял, в чем ваша проблема, но если вам нужно найти лучшую модель, вы можете попробовать использовать обратную процедуру (и, в конечном итоге, добавить целые числа), начиная с модели со всеми ковариатами. Затем вы можете посмотреть как значения residuals_vs_predicted, так и графики qq-plot, чтобы проверить, хорошо ли модель описывает ваше явление.
источник