Моя ситуация:
- небольшой размер выборки: 116
- двоичная переменная результата
- длинный список объясняющих переменных: 44
- объясняющие переменные не исходили из головы; их выбор был основан на литературе.
- В большинстве случаев в выборке и в большинстве переменных отсутствуют значения.
Подход к выбору функции выбран: LASSO
Пакет R glmnet не позволит мне запустить процедуру glmnet, по-видимому, из-за наличия пропущенных значений в моем наборе данных. Кажется, существуют различные методы для обработки пропущенных данных, поэтому я хотел бы знать:
- Налагает ли LASSO какое-либо ограничение в отношении метода вменения, который я могу использовать?
- Что будет лучшим выбором для метода вменения? В идеале мне нужен метод, который я мог бы запустить на SPSS (предпочтительно) или R.
ОБНОВЛЕНИЕ 1: Из некоторых ответов ниже стало ясно, что я имею дело с более основными вопросами, прежде чем рассматривать методы вменения. Я хотел бы добавить сюда новые вопросы по этому поводу. В ответе предлагается кодирование как постоянное значение и создание новой переменной, чтобы иметь дело с «неприменимыми» значениями и использованием группы lasso:
- Не могли бы вы сказать, что если я буду использовать группу LASSO, я смогу использовать подход, предложенный для непрерывных предикторов, а также для категориальных предикторов? Если это так, я предполагаю, что это будет эквивалентно созданию новой категории - я опасаюсь, что это может привести к предвзятости.
- Кто-нибудь знает, поддерживает ли пакет glmnet R группу LASSO? Если нет, то кто-нибудь предложил бы другой, который делает это в сочетании с логистической регрессией? Несколько вариантов упоминания группы LASSO можно найти в репозитории CRAN, какие предложения наиболее подходят для моего случая? Может быть, SGL?
Это продолжение моего предыдущего вопроса ( Как выбрать подмножество переменных из моего первоначального длинного списка для выполнения анализа логистической регрессии? ).
OBS: я не статистика.
источник
Ответы:
Когда непрерывный предиктор содержит значения «не применимо», часто полезно кодировать его с использованием двух переменных:x
где - постоянная, &c
Предположим, что линейный предиктор для ответа
который разрешает
когда измеряется, илиx
когда х «не применимо». Выбор является произвольным и не влияет на оценки точки или наклона ; описывает эффект того, что 'не применимо' по сравнению с тем, когда .c β0 β1 β2 x x=c
Это неподходящий подход, когда ответ изменяется в соответствии с неизвестным значением : изменчивость «отсутствующей» группы будет завышена, а оценки коэффициентов других предикторов смещены из-за смешения. Лучше вменять пропущенные значения.x
Использование LASSO создает две проблемы:
Вы можете решить оба из них, используя скорее группу LASSO с группой, включающей & : штраф нормы применяется к норме ортонормированной матрицы . (Категорические предикторы являются потомком для группы LASSO - вы бы просто закодировали «неприменимо» в качестве отдельного уровня, как это часто делается в непенализованной регрессии.) См. Meier et al (2008), JRSS B, 70 , 1, «The Групповое лассо для логистической регрессии " & grplasso .x1 x2 L1 L2 [x1→ x2→]
источник
Многократное вменение никогда не бывает плохим подходом. Вы также можете сделать полную информацию Максимальная вероятность. Хороший обзор и сравнение здесь и здесь .
Но если вы идете по этому пути, рассмотрите возможность использования Stan для подбора вложения ML одновременно с вашей регрессией в качестве единой байесовской модели, поскольку LASSO в любом случае является частным случаем байесовской регрессии .
источник
mi
который может вам помочь.Amelia
иmice
.Команда CATREG в статистике обрабатывает недостающие данные с помощью LASSO. Вы можете исключить наблюдения по списку или получить вменение процедуры. Хотя название предполагает, что оно относится к категориальным переменным, вы можете установить шкалу в числовое значение для обработки непрерывного регистра.
источник
PROC CATREG
, наверное?Вы также можете рассмотреть простой подход, представленный в следующей статье:
Loh, PL & Wainwright, MJ (2011). Высокомерная регрессия с зашумленными и отсутствующими данными: гарантируемые гарантии с невыпуклостью . В Достижения в нейронных системах обработки информации (стр. 2726-2734).
источник