Перекрестная проверка после LASSO в данных комплексного опроса

11

Я пытаюсь сделать выбор модели для некоторых кандидатов-предикторов, используя LASSO с непрерывным результатом. Цель состоит в том, чтобы выбрать оптимальную модель с наилучшими показателями прогнозирования, что обычно может быть выполнено путем перекрестной проверки в K-кратном порядке после получения пути решения параметров настройки из LASSO. Проблема здесь заключается в том, что данные взяты из комплексного многоэтапного плана обследования (NHANES) с кластерной выборкой и стратификацией. Оценка части не является сложной, так как glmnetв R может принимать веса выборки. Но часть перекрестной проверки мне менее понятна, так как наблюдения больше не рассматриваются, и как процедура может учитывать веса выборки, представляющие конечную совокупность?

Итак, мои вопросы:

1) Как выполнить перекрестную проверку K-кратных данных со сложными данными обследования, чтобы выбрать оптимальный параметр настройки? В частности, как правильно разделить выборочные данные на обучающие и проверочные наборы? А как определить оценку ошибки прогноза?

2) Есть ли альтернативный способ выбора оптимального параметра настройки?

Aenima
источник
Может быть, передискретизация (например, начальная загрузка) была бы более подходящей процедурой вместо k fold cv?
g3o2
Ламли предупреждает, что «теория для начальной загрузки была разработана только для ситуации выборки с равной вероятностью в каждой страте, не ясно, насколько хорошо она будет работать с произвольными вероятностями». (28) Данные NHANES, по-видимому, не имеют выборки с равной вероятностью в пределах страт.
Дэн Хикс
было бы интересно узнать эту маленькую деталь из ОП. Не понимаю, что может быть такого сложного в многоступенчатом кластере и стратифицированной выборке ...
g3o2
@ Дэн Хикс: Я не думаю, что это действительно имеет значение, при повторной выборке вы копируете несколько экземпляров одного и того же образца плана.
g3o2
Используя что-то вроде описанных здесь методов? amstat.tandfonline.com/doi/pdf/10.1080/01621459.1988.10478591 (или что-то более свежее?) Если вы хотите написать в качестве ответа эту идею с более подробным описанием, я дам вам награду.
Дэн Хикс

Ответы:

2

У меня нет подробного ответа, только некоторые указатели для работы, которые я хотел прочитать:

Вы можете взглянуть на McConville (2011) на LASSO комплексного опроса, чтобы убедиться, что использование LASSO подходит для ваших данных. Но, возможно, это не имеет большого значения, если вы делаете LASSO только для выбора переменных, а затем подгоняете что-то еще к оставшимся переменным.

Для перекрестной проверки со сложными данными опроса (но не LASSO) McConville также ссылается на Opsomer & Miller (2005) и You (2009). Но их методы, похоже, используют CV, а не K-fold.

Упрощенный метод проще реализовать в сложных опросах - меньше заботится о том, как правильно разделить данные. (С другой стороны, запуск может занять больше времени, чем K-кратный. И если ваша цель - выбор модели, известно, что опускание одного может быть хуже K-кратного для больших выборок.)

civilstat
источник
0

РЕДАКТИРОВАНИЕ ОП: Не применимо к сложным данным обследования.

Функция cv.glmet может помочь вам выполнить требуемую перекрестную проверку. Значение lambda.min - это значение λ, где ошибка CV минимальна. Значение lambda.1se представляет значение λ в поиске, которое было проще, чем лучшая модель (lambda.min), но имеет ошибку в пределах 1 стандартной ошибки наилучшей модели.

  1. Выберите сетку значений, которую вы можете выбрать для альфа и лямбда

grid <- expand.grid (.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1)

  1. Настройте параметры управления вашей модели. Приведенное ниже управление поездом повторяется в течение 10 итераций. Просмотрите доступные методы и выберите тот, который подходит вашему текущему сценарию.

.alpha,>=T,lambda=grid

Доступ к значению lambda.min можно получить из самой модели, как показано ниже.

cv.glmmod $ lambda.min

karthikbharadwaj
источник
1
Я знаю, как сделать перекрестную проверку для данных iid, используя glmnet. Я спрашивал о взаимосвязанных комплексных данных опроса.
Аенима