Я повторил измерения в 2 раза в выборке людей. В момент 1 - 18 тысяч человек, а в момент 2 - 13 тысяч человек (5000 потерянных для последующего наблюдения).
Я хочу регрессировать результат Y, измеренный в момент времени 2 (и результат не может быть измерен в момент времени 1) на множестве предикторов X, измеренных в момент 1. Все переменные имеют некоторые пропущенные данные. Большинство из них выглядит относительно случайным, или пропущенность кажется хорошо описанной наблюдаемыми данными. Тем не менее, подавляющее большинство пропусков в результате Y связано с потерями для последующего наблюдения. Я буду использовать множественное вменение (R :: mice) и буду использовать полный набор данных для вменения значений для X, но я получил 2 противоречивых совета относительно вменения Y:
1) Вменяем Y из X и V (V = полезные вспомогательные переменные) в полной выборке из 18k.
2) Не вменяйте Y в индивидов, потерянных для последующего наблюдения (и, следовательно, исключайте их из любого последующего регрессионного моделирования).
Первое имеет смысл, потому что информация есть информация, так почему бы не использовать все это; Но последнее также имеет смысл, в более интуитивном ключе - просто кажется неправильным вменять результат для 5000 человек на основе Y ~ X + V, а затем поворачиваться и оценивать Y ~ X.
Что (более) правильно?
Этот предыдущий вопрос полезен, но напрямую не рассматривает пропущение из-за потери последующих действий (хотя, возможно, ответ тот же; я не знаю).
источник
Ответы:
Я думаю, что это случай с приборами. Вы хотите отсутствующий X, а не отсутствующий Y.
Но X часто отсутствует или ошибается.
Тогда вы можете запустить:
И требуют некоторой корректировки для стандартных ошибок.
Вы также можете посмотреть на двухшаговую процедуру Heckmann, если у вас много образцов истощения. http://en.wikipedia.org/wiki/Heckman_correction
источник
Я бы сказал, что ни один из них не является наиболее подходящим.
Импутация, как правило, не подходит, когда данные не являются MAR или MCAR, и данные редко встречаются таким образом. При вменении ваших значений это может быть разумным предположением, но, конечно, не для ваших данныхX Y
Удаление всех отсутствующих данных из ваших данных приводит к смещению ваших параметров (если данные не MCAR, см. Выше) и значительно снижает точность ваших оценок. Это полный анализ и нецелесообразно.
Я бы предложил пересмотреть методы анализа выживаемости. Это методы, разработанные для анализа ваших данных, учитывая, что некоторые из ваших результатов являются ненаблюдаемыми из-за цензуры. Существуют модели, которые будут учитывать это, если вы сможете определить, какие наблюдения подвергаются цензуре.Y
источник