Многократное вменение довольно просто, если у вас есть априори линейная модель, которую вы хотите оценить. Тем не менее, вещи кажутся немного сложнее, когда вы на самом деле хотите сделать выбор модели (например, найти «лучший» набор переменных-предикторов из большего набора переменных-кандидатов - я думаю конкретно о LASSO и дробных многочленах с использованием R).
Одной из идей будет подгонка модели в исходных данных с отсутствующими значениями, а затем переоценка этой модели в наборах данных MI и объединение оценок, как обычно. Тем не менее, это кажется проблематичным, так как вы ожидаете предвзятости (или вообще, почему ИМ в первую очередь?), Что может привести к выбору «неправильной» модели с самого начала.
Другая идея состояла бы в том, чтобы пройти через любой процесс выбора модели, который вы используете в каждом наборе данных MI - но как бы вы тогда объединили результаты, если бы они включали разные наборы переменных?
Одна из моих мыслей состояла в том, чтобы сложить наборы данных MI и проанализировать их как один большой набор данных, который вы затем использовали бы для подбора одной «лучшей» модели, и включить случайный эффект, чтобы учесть тот факт, что вы используете повторные измерения для каждое наблюдение.
Это звучит разумно? Или, может быть, невероятно наивный? Любые указатели по этому вопросу (выбор модели с множественным вменением) будет принята с благодарностью.
Ответы:
Есть много вещей, которые вы могли бы сделать, чтобы выбрать переменные из умноженных вмененных данных, но не все дают соответствующие оценки. См. Wood et al (2008) Stat Med для сравнения различных возможностей.
Я нашел следующую двухэтапную процедуру полезной на практике.
Этап 1 предварительного выбора включен для уменьшения объема вычислений. См. Http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (раздел 6.4.2) для примера кода двухэтапного метода в R, использующего
mice()
. В Stata вы можете выполнить Шаг 2 (для всех переменных) с помощьюmim:stepwise
.источник
Это просто: вы можете применять стандартные правила комбинирования MI, но эффекты переменных, которые не поддерживаются во вмененных наборах данных, будут менее выраженными. Например, если переменная не выбрана в конкретном вмененном наборе данных, ее оценка (включая дисперсию) равна нулю, и это должно быть отражено в оценках, используемых при использовании множественного вменения. Вы можете рассмотреть возможность начальной загрузки, чтобы построить доверительные интервалы для учета неопределенности выбора модели, взгляните на эту недавнюю публикацию, в которой рассматриваются все вопросы: http://www.sciencedirect.com/science/article/pii/S016794731300073X
Я бы не использовал прагматические подходы, такие как выбор переменной, если она выбрана в наборах данных m / 2 или чем-то подобном, потому что логический вывод не ясен и более сложен, чем кажется на первый взгляд.
источник
У меня была такая же проблема.
Моим выбором было так называемое «лассо множественного вменения». По сути, он объединяет все вмененные наборы данных и принимает концепцию группового лассо: каждая переменная-кандидат будет генерировать m фиктивных переменных. Каждая фиктивная переменная соответствует вмененному набору данных.
Затем все m фиктивных переменных сгруппированы. вы бы либо отбросили м переменную-кандидата переменными манекена во всех вменяемых наборах данных или держать их во всех вменяемых наборах данных.
Таким образом, регрессия лассо фактически совместима со всеми вмененными наборами данных.
Проверьте бумагу :
Chen, Q. & Wang, S. (2013). «Выбор переменной для многократных вмененных данных с применением для исследования воздействия диоксина», Статистика в медицине, 32: 3646-59.
И соответствующая программа R
источник
Я столкнулся с аналогичной проблемой - у меня есть набор данных, в котором я знал с самого начала, что я хотел бы включить все переменные (меня интересовали коэффициенты больше, чем прогноз), но я не знал априори какие взаимодействия должны быть указаны.
Мой подход состоял в том, чтобы выписать набор моделей-кандидатов, выполнить несколько вменений, оценить несколько моделей и просто сохранить и усреднить значения AIC для каждой модели. Была выбрана спецификация модели с самым низким средним значением AIC.
Я думал о добавлении поправки, в которой я штрафую дисперсию между импутациями в AIC. Однако, если подумать, это казалось бессмысленным.
Подход показался мне достаточно простым, но я сам его придумал, и я не прославленный статистик. Прежде чем использовать его, вы можете подождать, пока люди не исправят меня (что будет приветствоваться!) Или проголосуют за этот ответ.
источник