Импутация для учета систематической ошибки в ответах на опрос

9

У меня есть большой опрос, в котором ученикам задали, среди прочего, уровень образования их матери. Некоторые пропустили это, а некоторые ответили неправильно. Я знаю это, потому что там была проведена беседа с подвыборкой из первых респондентов матери, которые задали тот же вопрос. (Я уверен, что есть и небольшая доля ошибок, связанных с ответами матерей.)

Моя задача - решить, как наилучшим образом использовать этот второй, более надежный источник данных. По крайней мере, я могу использовать его, чтобы вменять недостающие данные более разумно, чем если бы я мог полагаться только на законченные дела. Но если 3/4 детей, чьи данные я могу перепроверить, которые отвечают «Моя мать никогда не заканчивала начальную школу», противоречат ответу их матери, то, похоже, мне следует использовать вменение для создания нескольких наборов данных, чтобы уловить там неопределенность. [добавлено: я сказал 3/4, чтобы сделать точку, но теперь, когда я проверил данные, я мог бы также сказать вам, что ближе к 40% не соответствует)

Я лично буду использовать образование матери в качестве предиктора в смешанной модели, но если кому-то есть что сказать о других ситуациях, я бы тоже хотел узнать о них.

Я хотел бы получить совет в общих чертах или в деталях. Спасибо!

Обновление : я пока оставляю вопрос нерешенным, хотя я ценю ответы Уилла и Conjugate_Prior, я надеюсь на более конкретную и техническую обратную связь.

Диаграмма рассеяния ниже даст вам представление о том, как две переменные связаны в 10 000 случаев, когда существуют обе. Они гнездятся более чем в 100 школах. Они коррелируют на уровне 0,78, средний ответ ученика: 5,12 SD = 2,05, ответ мамы, среднее = 5,02, SD = 1,92. Ответ ученика отсутствует примерно в 15% случаев.

введите описание изображения здесь

Майкл Бишоп
источник
Из любопытства был ли первый вариант ответа на вопрос об образовании «Моя мама никогда не заканчивала начальную школу»? Если это так, я бы беспокоился о точности остальных результатов ваших тестов для тех, кто сдал экзамен.
Мишель
"Как далеко она пошла в школу?" - 1) Восьмой класс или меньше
Майкл Бишоп
У вас, вероятно, есть подмножество тестируемых, которые отметили первый вариант ответа на каждый вопрос. Вы можете это проверить?
Мишель
Этот сюжет очень проницательный. Это выглядит довольно симметрично, а это не то, что вы ожидаете, если на самом деле группа детей просто отметит первый ответ. Если бы это было так, то случаи имели бы тенденцию группироваться вдоль нижнего ряда. Конечно, «выглядящий» симметричный на самом деле не гарантирует, но это хорошее начало. Сильная корреляция между реакцией матери и ребенка также согласуется с этим.
Уилл
1
Ааа. Понимаю. Тогда я бы тоже (больше , чем немного) неохотно приписывать существующие данные и рекомендовал бы это не было сделано вообще, несмотря на это своего рода аргумент: gking.harvard.edu/gking/files/measure.pdf
conjugateprior

Ответы:

2

Первое, на что нужно обратить внимание, это то, что ваши переменные: «что ученик сказал об образовании матери» и «что мама студента сказала об образовании матери ученика». Назовите их S и M соответственно, и обозначьте ненаблюдаемый истинный уровень образования матери как T.

S и M оба получили пропущенные значения, и нет ничего плохого (по модулю наблюдения ниже) в том, что M и S включены в модель вменения, но только с использованием одного из них в последующем анализе. Обратный путь всегда будет нежелательным.

Это отдельно от трех других вопросов:

  1. Означает ли пропущенное значение, что ученики не знают или не хотят так много говорить о своих матерях?
  2. Как использовать S и M, чтобы узнать о T?
  3. Есть ли у вас правильная пропущенность, позволяющая работать множественным вменениям?

Невежество и отсутствие

Возможно, вас заинтересует T, но вам и не обязательно: восприятие уровня образования (через S и, возможно, M) или отсутствие знаний у студентов может быть более причинно интересным, чем само T. Вменение может быть разумным путем для первого, но может быть или не быть для второго. Вы должны решить.

Узнав о Т

Скажем, вы на самом деле заинтересованы в T. В отсутствие измерения золотого стандарта (поскольку вы иногда сомневаетесь в M), трудно понять, как вы могли бы произвольно комбинировать S и M, чтобы узнать о T. Если, с другой стороны, вы были Если вы готовы рассматривать M как правильное, когда оно доступно, вы можете использовать S для прогнозирования M в модели классификации, которая содержит другую информацию от учащихся, а затем использовать M, а не S в конечном анализе. Здесь возникает проблема смещения выбора в тех случаях, по которым вы тренировались, что приводит к третьей проблеме:

Missingness

Возможна ли множественная импутация, зависит от того, отсутствуют ли данные полностью случайно (MCAR) или отсутствуют случайно (MAR). S случайно отсутствует (MAR)? Возможно, нет, поскольку студентам может быть стыдно ответить на вопрос об отсутствии образования у их матери и пропустить вопрос. Тогда само значение определяет, будет ли оно пропущено, и множественное вменение здесь не поможет. С другой стороны, если низкие covaries образования с чем - то , что это задают и частично ответы в опросе , например , какой - то показатель дохода, то MAR может быть более разумным и несколько вменение есть что - то , чтобы получить контроль над. М отсутствует наугад? Те же соображения применимы.

Наконец, даже если вы интересуетесь T и применяете классификационный подход, вы все равно хотите рассчитывать на соответствие этой модели.

conjugateprior
источник
1

Если вы предполагаете, что «коэффициент противоречия» одинаков для всей выборки, как и для подвыборки, чьи матери были опрошены, тогда подвыборка должна быть выбрана случайным образом. В своем описании вы не говорите, поэтому я поднимаю этот вопрос, потому что я думаю, что он имеет важные последствия для того, как или если вы можете использовать эту информацию из подвыборки, чтобы сделать выводы о всей выборке учащихся.

Мне кажется, что в этом противоречии есть три аспекта.

1 - степень противоречия. Действительно ли так, что 3/4 учеников угадали?

2 - степень неправильности - одно дело сказать, что твоя мать никогда не заканчивала начальную школу, когда она фактически закончила ее, но остановилась на этом, и совсем другое - сказать, что она никогда не заканчивала начальную школу, когда у нее есть докторская степень.

3 - доля образца, которую вы можете перепроверить. Если вы сделаете эти выводы на подвыборке из 20, я бы поспорил, что оценки довольно нестабильны и, вероятно, не стоят много.

Мне кажется, что то, что вы будете делать, будет зависеть от вашего ответа на эти вопросы и от вопроса, который я поставил изначально. Например, если 1 довольно высокий, а 3 довольно высокий, тогда я мог бы просто использовать подвыборку и покончить с этим. Если 1 высокий, а 2 низкий, то проблема, кажется, не так уж и плоха, и, опять же, это может не стоить беспокоиться.

Вероятно, также стоит знать, является ли ошибка случайной или систематической. Если ученики склонны систематически недооценивать образование своей матери, то это более проблематично, чем если бы они просто иногда ошибались.

Я сделал несколько вменений в пару документов, и, кажется, я всегда создаю больше проблем для себя в результате. Рецензенты, по крайней мере в моей области, часто не очень хорошо разбираются в методе и поэтому с подозрением относятся к его использованию. Я чувствую, что иногда лучше, с точки зрения публикации, просто признать проблему и двигаться дальше. Но в этом случае вы на самом деле не «вменяете пропущенные данные», а вводите некоторую предсказанную дисперсию ошибки для переменной. Это очень интересный вопрос, и, оставляя все проблемы в стороне, я даже не уверен, как бы я поступил, если бы решил, что это лучший курс действий

Будет
источник
1
Спасибо Уилл, я разъяснил некоторые вещи в своем оригинальном посте. Подвыборка является случайной. Я вытащил 3/4 стат из шляпы, чтобы сделать точку. Истинный показатель меньше. Я могу перепроверить около 10000 случаев. Я уверен, что ошибка не является чисто случайной.
Майкл Бишоп