У меня есть большой опрос, в котором ученикам задали, среди прочего, уровень образования их матери. Некоторые пропустили это, а некоторые ответили неправильно. Я знаю это, потому что там была проведена беседа с подвыборкой из первых респондентов матери, которые задали тот же вопрос. (Я уверен, что есть и небольшая доля ошибок, связанных с ответами матерей.)
Моя задача - решить, как наилучшим образом использовать этот второй, более надежный источник данных. По крайней мере, я могу использовать его, чтобы вменять недостающие данные более разумно, чем если бы я мог полагаться только на законченные дела. Но если 3/4 детей, чьи данные я могу перепроверить, которые отвечают «Моя мать никогда не заканчивала начальную школу», противоречат ответу их матери, то, похоже, мне следует использовать вменение для создания нескольких наборов данных, чтобы уловить там неопределенность. [добавлено: я сказал 3/4, чтобы сделать точку, но теперь, когда я проверил данные, я мог бы также сказать вам, что ближе к 40% не соответствует)
Я лично буду использовать образование матери в качестве предиктора в смешанной модели, но если кому-то есть что сказать о других ситуациях, я бы тоже хотел узнать о них.
Я хотел бы получить совет в общих чертах или в деталях. Спасибо!
Обновление : я пока оставляю вопрос нерешенным, хотя я ценю ответы Уилла и Conjugate_Prior, я надеюсь на более конкретную и техническую обратную связь.
Диаграмма рассеяния ниже даст вам представление о том, как две переменные связаны в 10 000 случаев, когда существуют обе. Они гнездятся более чем в 100 школах. Они коррелируют на уровне 0,78, средний ответ ученика: 5,12 SD = 2,05, ответ мамы, среднее = 5,02, SD = 1,92. Ответ ученика отсутствует примерно в 15% случаев.
источник
Ответы:
Первое, на что нужно обратить внимание, это то, что ваши переменные: «что ученик сказал об образовании матери» и «что мама студента сказала об образовании матери ученика». Назовите их S и M соответственно, и обозначьте ненаблюдаемый истинный уровень образования матери как T.
S и M оба получили пропущенные значения, и нет ничего плохого (по модулю наблюдения ниже) в том, что M и S включены в модель вменения, но только с использованием одного из них в последующем анализе. Обратный путь всегда будет нежелательным.
Это отдельно от трех других вопросов:
Невежество и отсутствие
Возможно, вас заинтересует T, но вам и не обязательно: восприятие уровня образования (через S и, возможно, M) или отсутствие знаний у студентов может быть более причинно интересным, чем само T. Вменение может быть разумным путем для первого, но может быть или не быть для второго. Вы должны решить.
Узнав о Т
Скажем, вы на самом деле заинтересованы в T. В отсутствие измерения золотого стандарта (поскольку вы иногда сомневаетесь в M), трудно понять, как вы могли бы произвольно комбинировать S и M, чтобы узнать о T. Если, с другой стороны, вы были Если вы готовы рассматривать M как правильное, когда оно доступно, вы можете использовать S для прогнозирования M в модели классификации, которая содержит другую информацию от учащихся, а затем использовать M, а не S в конечном анализе. Здесь возникает проблема смещения выбора в тех случаях, по которым вы тренировались, что приводит к третьей проблеме:
Missingness
Возможна ли множественная импутация, зависит от того, отсутствуют ли данные полностью случайно (MCAR) или отсутствуют случайно (MAR). S случайно отсутствует (MAR)? Возможно, нет, поскольку студентам может быть стыдно ответить на вопрос об отсутствии образования у их матери и пропустить вопрос. Тогда само значение определяет, будет ли оно пропущено, и множественное вменение здесь не поможет. С другой стороны, если низкие covaries образования с чем - то , что это задают и частично ответы в опросе , например , какой - то показатель дохода, то MAR может быть более разумным и несколько вменение есть что - то , чтобы получить контроль над. М отсутствует наугад? Те же соображения применимы.
Наконец, даже если вы интересуетесь T и применяете классификационный подход, вы все равно хотите рассчитывать на соответствие этой модели.
источник
Если вы предполагаете, что «коэффициент противоречия» одинаков для всей выборки, как и для подвыборки, чьи матери были опрошены, тогда подвыборка должна быть выбрана случайным образом. В своем описании вы не говорите, поэтому я поднимаю этот вопрос, потому что я думаю, что он имеет важные последствия для того, как или если вы можете использовать эту информацию из подвыборки, чтобы сделать выводы о всей выборке учащихся.
Мне кажется, что в этом противоречии есть три аспекта.
1 - степень противоречия. Действительно ли так, что 3/4 учеников угадали?
2 - степень неправильности - одно дело сказать, что твоя мать никогда не заканчивала начальную школу, когда она фактически закончила ее, но остановилась на этом, и совсем другое - сказать, что она никогда не заканчивала начальную школу, когда у нее есть докторская степень.
3 - доля образца, которую вы можете перепроверить. Если вы сделаете эти выводы на подвыборке из 20, я бы поспорил, что оценки довольно нестабильны и, вероятно, не стоят много.
Мне кажется, что то, что вы будете делать, будет зависеть от вашего ответа на эти вопросы и от вопроса, который я поставил изначально. Например, если 1 довольно высокий, а 3 довольно высокий, тогда я мог бы просто использовать подвыборку и покончить с этим. Если 1 высокий, а 2 низкий, то проблема, кажется, не так уж и плоха, и, опять же, это может не стоить беспокоиться.
Вероятно, также стоит знать, является ли ошибка случайной или систематической. Если ученики склонны систематически недооценивать образование своей матери, то это более проблематично, чем если бы они просто иногда ошибались.
Я сделал несколько вменений в пару документов, и, кажется, я всегда создаю больше проблем для себя в результате. Рецензенты, по крайней мере в моей области, часто не очень хорошо разбираются в методе и поэтому с подозрением относятся к его использованию. Я чувствую, что иногда лучше, с точки зрения публикации, просто признать проблему и двигаться дальше. Но в этом случае вы на самом деле не «вменяете пропущенные данные», а вводите некоторую предсказанную дисперсию ошибки для переменной. Это очень интересный вопрос, и, оставляя все проблемы в стороне, я даже не уверен, как бы я поступил, если бы решил, что это лучший курс действий
источник