Множественное вложение для исходных переменных

18

У меня есть набор данных по сельскохозяйственным испытаниям. Моя переменная ответа - это соотношение ответов: log (лечение / контроль). Меня интересует, что опосредует разницу, поэтому я использую мета-регрессии RE (невзвешенные, потому что кажется довольно ясным, что величина эффекта не связана с дисперсией оценок).

Каждое исследование сообщает урожай зерна, урожай биомассы или оба. Я не могу вписать урожай зерна из исследований, в которых сообщается только об урожае биомассы, потому что не все изученные растения были полезны для зерна (например, сахарный тростник). Но каждое растение, которое производило зерно, также имело биомассу.

Для пропущенных ковариат я использовал итеративное регрессионное вменение (следуя главе учебника Эндрю Гельмана). Кажется, он дает разумные результаты, и весь процесс в целом интуитивно понятен. По сути, я прогнозирую пропущенные значения и использую эти прогнозируемые значения для прогнозирования пропущенных значений, и перебираю каждую переменную до тех пор, пока каждая переменная не приблизится приблизительно (в распределении).

Есть ли какая-то причина, по которой я не могу использовать тот же процесс для расчета отсутствующих данных о результатах? Я могу, вероятно, сформировать относительно информативную модель вменения для отношения реакции биомассы, учитывая отношение реакции зерна, тип культуры и другие ковариаты, которые у меня есть. Затем я усредняю ​​коэффициенты и VCV и добавляю коррекцию MI в соответствии со стандартной практикой.

Но что измеряют эти коэффициенты, когда вменяются сами результаты? Отличается ли интерпретация коэффициентов от стандартной МИ для ковариат? Размышляя об этом, я не могу убедить себя, что это не работает, но я не совсем уверен. Мысли и предложения для чтения материала приветствуются.

generic_user
источник
У меня нет ответа, но один вопрос и два примечания: 1) журнал отношений - это, конечно, разница журналов. Таким образом, ваш DV эквивалентно журналу (лечение) - журнал (контроль). 2) На какой учебник Гельмана вы смотрели?
Питер Флом - Восстановить Монику
Да, DV эквивалентно log (лечение) -log (контроль). В основу итеративной регрессии я положил (нетехническую) главу о недостающих данных, которые Гельман опубликовал в Интернете: stat.columbia.edu/~gelman/arm/missing.pdf
generic_user
Мне сказали, что вменение результата приводит к ошибке Монте-Карло. Попробую найти ссылку позже. Не забывайте, что вам нужно обязательно включить результат в модели вменения для ковариат.
DL Dahly

Ответы:

20

Как вы и подозревали, для оценки результата допустимо использовать множественное вменение. Есть случаи, когда это полезно, но может быть и рискованно. Я рассматриваю ситуацию, когда все ковариаты полны, а результат неполон.

Если модель вменения правильная, мы получим достоверные выводы об оценках параметров из вмененных данных. Выводы, полученные только из полных случаев, на самом деле могут быть неправильными, если пропущение связано с результатом после обусловливания на предикторе, то есть в рамках MNAR. Таким образом, вменение полезно, если мы знаем (или подозреваем), что данные являются MNAR.

При МАР, как правило, нет преимуществ для вменения результата, и для небольшого числа вменений результаты могут даже быть несколько более переменными из-за ошибки моделирования. Есть важное исключение из этого. Если у нас есть доступ к вспомогательной полной переменной, которая не является частью модели и которая тесно связана с результатом, вменение может быть значительно более эффективным, чем полный анализ случая, что приводит к более точным оценкам и более коротким доверительным интервалам. Обычный сценарий, в котором это происходит, - это если у нас есть дешевая мера результата для всех и дорогая мера для подгруппы.

Во многих наборах данных недостающие данные также встречаются в независимых переменных. В этих случаях нам необходимо вменять итоговую переменную, поскольку ее вмененная версия необходима для вменения независимых переменных.

Стеф ван Буурен
источник
Спасибо, это согласуется с моей интуицией, но не могли бы вы поделиться ссылкой на хорошо сделанное опубликованное исследование, которое вменяет зависимые переменные? Одной из основных причин, по которой я хочу объяснить результаты оценки, является увеличение размера выборки (с 250 до 450), чтобы упростить условия взаимодействия полупараметрического тензорного произведения в GAM, которые предъявляют очень высокие требования к df (до того, как они получат штрафуется, понижение эдф). МАР разумно в моем случае.
generic_user
1
Для ANOVA широко практикуется сбалансированный дизайн. См. Введение RJA Little, Регрессия с отсутствующими X, JASA 1992. Я полагаю, что вы знаете, что увеличение размера выборки таким образом не поможет вам получить более точные оценки. Что касается вспомогательных переменных, прочитайте раздел о сверхэффективности в DB Rubin, Множественное вменение через 18+ лет, JASA 1996.
Stef van Buuren
1
«В рамках МАР, как правило, нет преимуществ для вменения результата» - я уже видел это упомянутое ранее, но у меня нет никаких ссылок на него - не могли бы вы предоставить один, пожалуйста?
Роберт Лонг
Я думаю, что вы можете процитировать Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282 для этого, но, пожалуйста, обратите внимание на исключения.
Stef van Buuren
1
@StefvanBuuren - полезный ответ по большей части, но я понимаю, что «если мы знаем (или подозреваем), что данные являются MNAR», то вменение не может решить наши проблемы больше, чем полный анализ случая. Это, кажется, падение в категорию «без бесплатного обеда».
rolando2
2

Вменение данных о результатах очень распространено и приводит к правильному выводу при учете случайной ошибки.

Похоже, то, что вы делаете, - это единственное вменение, вменяя пропущенные значения условным средним значением при полном анализе случая. То, что вы должны делать, это множественное вменение, которое для непрерывных ковариат учитывает случайную ошибку, которую вы бы наблюдали, если бы вы задним числом измерили эти пропущенные значения. Алгоритм EM работает аналогичным образом, усредняя диапазон возможных наблюдаемых результатов.

Одиночное вменение дает правильную оценку параметров модели, когда нет отношения средней дисперсии, но оно дает стандартные оценки ошибок, которые смещены к нулю, увеличивая частоту ошибок типа I. Это потому, что вы были «оптимистичны» в отношении степени ошибки, которую вы бы наблюдали, измеряя эти факторы.

Множественное вменение - это процесс итеративной генерации аддитивной ошибки для условного среднего вменения, так что с помощью 7 или 8 имитированных вменений вы можете комбинировать модели и их ошибки, чтобы получить правильные оценки параметров модели и их стандартных ошибок. Если у вас совместно пропущены ковариаты и результаты, то в SAS, STATA и R есть программное обеспечение, называемое множественным вменением через цепочечные уравнения, в котором генерируются «завершенные» наборы данных (наборы данных с вмененными значениями, которые рассматриваются как фиксированные и неслучайные), модель параметры, оцениваемые по каждому полному набору данных, и их оценки параметров и стандартные ошибки, объединенные с использованием правильной математической формации (подробности в статье Ван Буурена).

Небольшое различие между процессом в MI и процессом, который вы описали, заключается в том, что вы не учли тот факт, что оценка условного распределения результата с использованием вмененных данных будет зависеть от того, в каком порядке вы вменяете определенные факторы. Вы должны были оценить условное распределение условий пропущенных ковариат по результату в ИМ, в противном случае вы получите смещенные оценки параметров.

Adamo
источник
Благодарю. Во-первых, я программирую все с нуля на R, не используя MICE или MI. Во-вторых, я вменяюсь с помощью (смоделированного) прогнозирующего распределения, а не только условных ожиданий. Это то, о чем вы говорите во втором абзаце? Если нет, я был бы признателен за разъяснения. Кроме того, на какую статью Ройстона вы ссылаетесь? В заключение: вы говорите что-нибудь более сложное, чем «вы должны поместить свою зависимую переменную в модель вменения»? Если так, я был бы очень признателен за разъяснения.
generic_user
Наконец - я не делаю ни одного вменения. Я подгоняю 30 моделей с заполненными данными и использую формулу V_b = W + (1 + 1 / m) B от Рубина.
generic_user
Ройстон газета была гиперссылка. Я на самом деле хотел связать Ван Буурена с тем, кто реализовал программу на R и включает в себя вычислительные детали: doc.utwente.nl/78938 MICE / MI - это процесс. Если вы вменяете на основе собственного кода, вам следует лучше уточнить детали. Условные средние = прогнозные значения, если модель верна (или примерно так, необходимое предположение). Это сложнее, чем «добавить результат», это то, что вы вменяете несколько пропущенных паттернов (по крайней мере 3, пропущенный ковариат / результат / совместно отсутствующий).
AdamO
Если вы в одиночку вменяете предсказанное значение 30 раз, вы должны получать те же результаты 30 раз. Как вы оцениваете ошибку?
AdamO
Это довольно простой алгоритм - скажем, я наблюдаю a, b, c и d с некоторым отсутствием. Я заполняю все четыре случайными ничьями (с заменой) из наблюдаемых значений. Затем я моделирую imp = lm (a ~ b * + c * + d *), где * обозначает заполненный, а затем x = прогнозируем (imp, se.fit = TRUE), y = rnorm (N, impеяT,ямпse.fit). Затем я делаю a * = y, а затем выполняю imp = lm (b ~ a * + c * + d *), прогнозирую таким же образом и так далее. Я перебираю весь набор переменных 50 раз. Это все из той главы учебника Эндрю Гельмана, которую я привел выше, и именно поэтому я не получаю один и тот же результат каждый раз.
generic_user