Многократное вменение и выбор модели

21

Многократное вменение довольно просто, если у вас есть априори линейная модель, которую вы хотите оценить. Тем не менее, вещи кажутся немного сложнее, когда вы на самом деле хотите сделать выбор модели (например, найти «лучший» набор переменных-предикторов из большего набора переменных-кандидатов - я думаю конкретно о LASSO и дробных многочленах с использованием R).

Одной из идей будет подгонка модели в исходных данных с отсутствующими значениями, а затем переоценка этой модели в наборах данных MI и объединение оценок, как обычно. Тем не менее, это кажется проблематичным, так как вы ожидаете предвзятости (или вообще, почему ИМ в первую очередь?), Что может привести к выбору «неправильной» модели с самого начала.

Другая идея состояла бы в том, чтобы пройти через любой процесс выбора модели, который вы используете в каждом наборе данных MI - но как бы вы тогда объединили результаты, если бы они включали разные наборы переменных?

Одна из моих мыслей состояла в том, чтобы сложить наборы данных MI и проанализировать их как один большой набор данных, который вы затем использовали бы для подбора одной «лучшей» модели, и включить случайный эффект, чтобы учесть тот факт, что вы используете повторные измерения для каждое наблюдение.

Это звучит разумно? Или, может быть, невероятно наивный? Любые указатели по этому вопросу (выбор модели с множественным вменением) будет принята с благодарностью.

DL Dahly
источник
2
Пожалуйста, отредактируйте этот пост, чтобы изменить "примерка модели" на "выбор модели". Также было бы полезно обсудить, какой метод вы используете. Например, если используется пошаговый выбор модели на основе p-значений, то суммирование вмененных данных абсолютно НЕ допускается. Вы можете нарисовать загрузочные повторные выборки ваших данных, включая отсутствующие данные, применить MI и последующий процесс выбора модели и рассчитать точное «p-значение» для выбранной модели.
AdamO
Во втором абзаце, как вы думаете, почему этот метод пропускает точку множественного вменения? Кроме того, какое программное обеспечение вы используете?
Питер Флом - Восстановить Монику

Ответы:

10

Есть много вещей, которые вы могли бы сделать, чтобы выбрать переменные из умноженных вмененных данных, но не все дают соответствующие оценки. См. Wood et al (2008) Stat Med для сравнения различных возможностей.

Я нашел следующую двухэтапную процедуру полезной на практике.

  1. Примените предпочитаемый метод выбора переменных независимо от каждого из вмененных наборов данных. В итоге вы получите м разных моделей. Для каждой переменной посчитайте, сколько раз она появляется в модели. Выберите те переменные , которые появляются в по крайней мере половины м моделей.ммм
  2. Используйте p-значение статистики Вальда или теста отношения правдоподобия, рассчитанное по многократным вмененным наборам данных, в качестве критерия для дальнейшего пошагового выбора модели.м

Этап 1 предварительного выбора включен для уменьшения объема вычислений. См. Http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (раздел 6.4.2) для примера кода двухэтапного метода в R, использующего mice(). В Stata вы можете выполнить Шаг 2 (для всех переменных) с помощью mim:stepwise.

Стеф ван Буурен
источник
Стеф, пожалуйста, включите ссылку на публикацию Stat Med. Я тоже попытался немного украсить твой ответ.
StasK
1
Предлагаемая процедура может иметь смысл только тогда, когда вы выбираете из заранее заданного набора регрессоров. Но если я выберу, скажем, квадратичный тренд, 5-и 9-узловые B-сплайны и, возможно, CART, я не уверен, как применить это предложение.
StasK
Стас, процедура предполагает, что модель вменения верна. В частности, метод вменения должен адекватно отражать все особенности данных, которые могут вас заинтересовать в дальнейшем. Поэтому, если вы хотите включить квадратные термины или B-сплайны в свой анализ полных данных, тогда модель вменения должна быть настроена таким образом, чтобы эти признаки сохранялись в вмененных данных (Примечание: на самом деле это может быть трудно достичь , но это тема сама по себе). Учитывая, что модель вменения задана правильно, я бы сказал, что применяется двухэтапная процедура выбора.
Стеф ван Буурен
Ну, тогда в принципе модель вменения должна быть самой богатой моделью. Я сталкивался с ситуациями, когда это не совсем срабатывает, например, с идеальными прогнозами в сверхпараметрических логистических моделях.
StasK
Согласовано. Вам придется вменять в соответствии с самой богатой моделью. Итак, сначала определите самые сложные анализы, которые вы хотели бы сделать, и приспособьте модель вменения к этому. Это может быть трудно достичь на практике, и становится все труднее по мере роста сложности модели полных данных. Там нет бесплатного обеда. Совершенное предсказание в логистической регрессии было решено несколькими способами, и не нужно представлять главный камень преткновения.
Стеф ван Буурен
4

Это просто: вы можете применять стандартные правила комбинирования MI, но эффекты переменных, которые не поддерживаются во вмененных наборах данных, будут менее выраженными. Например, если переменная не выбрана в конкретном вмененном наборе данных, ее оценка (включая дисперсию) равна нулю, и это должно быть отражено в оценках, используемых при использовании множественного вменения. Вы можете рассмотреть возможность начальной загрузки, чтобы построить доверительные интервалы для учета неопределенности выбора модели, взгляните на эту недавнюю публикацию, в которой рассматриваются все вопросы: http://www.sciencedirect.com/science/article/pii/S016794731300073X

Я бы не использовал прагматические подходы, такие как выбор переменной, если она выбрана в наборах данных m / 2 или чем-то подобном, потому что логический вывод не ясен и более сложен, чем кажется на первый взгляд.

Майкл
источник
3

У меня была такая же проблема.

Моим выбором было так называемое «лассо множественного вменения». По сути, он объединяет все вмененные наборы данных и принимает концепцию группового лассо: каждая переменная-кандидат будет генерировать m фиктивных переменных. Каждая фиктивная переменная соответствует вмененному набору данных.

Затем все m фиктивных переменных сгруппированы. вы бы либо отбросили м переменную-кандидата переменными манекена во всех вменяемых наборах данных или держать их во всех вменяемых наборах данных.

Таким образом, регрессия лассо фактически совместима со всеми вмененными наборами данных.

Проверьте бумагу :

Chen, Q. & Wang, S. (2013). «Выбор переменной для многократных вмененных данных с применением для исследования воздействия диоксина», Статистика в медицине, 32: 3646-59.

И соответствующая программа R

Фан Ван
источник
Я думаю, что я на самом деле написал вам об этом пару лет назад :)
DL Dahly
1

Я столкнулся с аналогичной проблемой - у меня есть набор данных, в котором я знал с самого начала, что я хотел бы включить все переменные (меня интересовали коэффициенты больше, чем прогноз), но я не знал априори какие взаимодействия должны быть указаны.

Мой подход состоял в том, чтобы выписать набор моделей-кандидатов, выполнить несколько вменений, оценить несколько моделей и просто сохранить и усреднить значения AIC для каждой модели. Была выбрана спецификация модели с самым низким средним значением AIC.

Я думал о добавлении поправки, в которой я штрафую дисперсию между импутациями в AIC. Однако, если подумать, это казалось бессмысленным.

Подход показался мне достаточно простым, но я сам его придумал, и я не прославленный статистик. Прежде чем использовать его, вы можете подождать, пока люди не исправят меня (что будет приветствоваться!) Или проголосуют за этот ответ.

generic_user
источник
Спасибо за ответ. К сожалению, меня действительно интересует использование более автоматизированных / исследовательских методов выбора моделей, которые не поддаются первому выбору разумного набора моделей-кандидатов.
DL Dahly