У меня есть набор данных по сельскохозяйственным испытаниям. Моя переменная ответа - это соотношение ответов: log (лечение / контроль). Меня интересует, что опосредует разницу, поэтому я использую мета-регрессии RE (невзвешенные, потому что кажется довольно ясным, что величина эффекта не связана с дисперсией оценок).
Каждое исследование сообщает урожай зерна, урожай биомассы или оба. Я не могу вписать урожай зерна из исследований, в которых сообщается только об урожае биомассы, потому что не все изученные растения были полезны для зерна (например, сахарный тростник). Но каждое растение, которое производило зерно, также имело биомассу.
Для пропущенных ковариат я использовал итеративное регрессионное вменение (следуя главе учебника Эндрю Гельмана). Кажется, он дает разумные результаты, и весь процесс в целом интуитивно понятен. По сути, я прогнозирую пропущенные значения и использую эти прогнозируемые значения для прогнозирования пропущенных значений, и перебираю каждую переменную до тех пор, пока каждая переменная не приблизится приблизительно (в распределении).
Есть ли какая-то причина, по которой я не могу использовать тот же процесс для расчета отсутствующих данных о результатах? Я могу, вероятно, сформировать относительно информативную модель вменения для отношения реакции биомассы, учитывая отношение реакции зерна, тип культуры и другие ковариаты, которые у меня есть. Затем я усредняю коэффициенты и VCV и добавляю коррекцию MI в соответствии со стандартной практикой.
Но что измеряют эти коэффициенты, когда вменяются сами результаты? Отличается ли интерпретация коэффициентов от стандартной МИ для ковариат? Размышляя об этом, я не могу убедить себя, что это не работает, но я не совсем уверен. Мысли и предложения для чтения материала приветствуются.
источник
Ответы:
Как вы и подозревали, для оценки результата допустимо использовать множественное вменение. Есть случаи, когда это полезно, но может быть и рискованно. Я рассматриваю ситуацию, когда все ковариаты полны, а результат неполон.
Если модель вменения правильная, мы получим достоверные выводы об оценках параметров из вмененных данных. Выводы, полученные только из полных случаев, на самом деле могут быть неправильными, если пропущение связано с результатом после обусловливания на предикторе, то есть в рамках MNAR. Таким образом, вменение полезно, если мы знаем (или подозреваем), что данные являются MNAR.
При МАР, как правило, нет преимуществ для вменения результата, и для небольшого числа вменений результаты могут даже быть несколько более переменными из-за ошибки моделирования. Есть важное исключение из этого. Если у нас есть доступ к вспомогательной полной переменной, которая не является частью модели и которая тесно связана с результатом, вменение может быть значительно более эффективным, чем полный анализ случая, что приводит к более точным оценкам и более коротким доверительным интервалам. Обычный сценарий, в котором это происходит, - это если у нас есть дешевая мера результата для всех и дорогая мера для подгруппы.
Во многих наборах данных недостающие данные также встречаются в независимых переменных. В этих случаях нам необходимо вменять итоговую переменную, поскольку ее вмененная версия необходима для вменения независимых переменных.
источник
Вменение данных о результатах очень распространено и приводит к правильному выводу при учете случайной ошибки.
Похоже, то, что вы делаете, - это единственное вменение, вменяя пропущенные значения условным средним значением при полном анализе случая. То, что вы должны делать, это множественное вменение, которое для непрерывных ковариат учитывает случайную ошибку, которую вы бы наблюдали, если бы вы задним числом измерили эти пропущенные значения. Алгоритм EM работает аналогичным образом, усредняя диапазон возможных наблюдаемых результатов.
Одиночное вменение дает правильную оценку параметров модели, когда нет отношения средней дисперсии, но оно дает стандартные оценки ошибок, которые смещены к нулю, увеличивая частоту ошибок типа I. Это потому, что вы были «оптимистичны» в отношении степени ошибки, которую вы бы наблюдали, измеряя эти факторы.
Множественное вменение - это процесс итеративной генерации аддитивной ошибки для условного среднего вменения, так что с помощью 7 или 8 имитированных вменений вы можете комбинировать модели и их ошибки, чтобы получить правильные оценки параметров модели и их стандартных ошибок. Если у вас совместно пропущены ковариаты и результаты, то в SAS, STATA и R есть программное обеспечение, называемое множественным вменением через цепочечные уравнения, в котором генерируются «завершенные» наборы данных (наборы данных с вмененными значениями, которые рассматриваются как фиксированные и неслучайные), модель параметры, оцениваемые по каждому полному набору данных, и их оценки параметров и стандартные ошибки, объединенные с использованием правильной математической формации (подробности в статье Ван Буурена).
Небольшое различие между процессом в MI и процессом, который вы описали, заключается в том, что вы не учли тот факт, что оценка условного распределения результата с использованием вмененных данных будет зависеть от того, в каком порядке вы вменяете определенные факторы. Вы должны были оценить условное распределение условий пропущенных ковариат по результату в ИМ, в противном случае вы получите смещенные оценки параметров.
источник