Обработка уровней «Не знаю / Отказ» категориальных переменных

9

Я моделирую прогнозирование диабета с помощью логистической регрессии. Используемый набор данных представляет собой систему наблюдения за поведенческим фактором риска (BRFSS) Центра контроля заболеваний (CDC). Одной из независимых переменных является высокое кровяное давление. Он категорически со следующими уровнями: «Да», «Нет», «Не знаю / Отказался». Должен ли я удалить эти строки с «Не знаю / отказано» при построении модели? Какая разница, чтобы сохранить или удалить эти строки из модели?

user3897
источник

Ответы:

6

Я просто задавался вопросом об одном и том же вопросе при анализе последних данных Национального обследования выписки из стационара . Несколько переменных имеют существенные пропущенные значения, такие как семейное положение и тип процедуры. Этот вопрос привлек мое внимание, потому что эти категории обнаруживали сильные (и существенные) эффекты в большинстве анализов логистической регрессии, которые я проводил.

Склонен удивляться, почемуотсутствует код Например, в случае семейного положения вполне вероятно, что непредоставление этой информации может быть связано с такими важными факторами, как социально-экономический статус или тип заболевания. В вашем случае высокого кровяного давления, мы должны спросить, почему значение не известно или отказано? Это может быть связано с практикой в ​​учреждении (возможно, отражает слабые процедуры) или даже с отдельными лицами (например, религиозные убеждения). Эти характеристики в свою очередь могут быть связаны с диабетом. Поэтому представляется целесообразным продолжать, как вы, а не кодировать эти значения как отсутствующие (тем самым исключая их из анализа) или пытаясь вменять значения (что эффективно маскирует предоставляемую ими информацию и может искажать результаты). Это действительно не сложнее сделать: вам просто нужно убедиться, что эта переменная рассматривается как категориальная, и вы получите еще один коэффициент в выводе регрессии. Кроме того, я подозреваю, что наборы данных BRFSS достаточно велики, чтобы вам не приходилось беспокоиться о мощности.

Whuber
источник
2
Кроме того, DK может иметь реальное значение, то есть эти люди не заботятся о своем здоровье и могут подвергаться риску.
Брэндон Бертельсен
2

Во-первых, вы должны подумать, если пропущенные данные отсутствуют полностью случайно (MCAR), пропущены случайно (MAR) или пропущены не случайно (MNAR), поскольку удаление (другими словами, полный анализ случая) может привести к искаженным результатам. Альтернативы - взвешивание с обратной вероятностью, многократное вменение, метод полного правдоподобия и методы с двойной надежностью. Многократное вложение с цепочечными уравнениями (MICE), если часто это самый простой путь.

GaBorgulya
источник
Благодарю вас. Это данные опроса, и я не уверен, что это MAR или MNAR. Например, есть переменная, которая говорит 1) «есть ли у человека диабет или нет?» и другая переменная (2) принимает ли он инсулин? Я вижу, что переменная (2) имеет записи только тогда, когда переменная (1) имеет значение «Да» (т. Е. Человек болен диабетом). В противном случае (2) пусто. Кроме того (2) имеет «да», «нет», «не знаю / отказано» в качестве ответов для случая диабета. Итак, как мне относиться к пустым ячейкам и ответам на опрос «Не знаю / Отказался»?
user3897
Я хотел бы узнать о множественном вменении и искал учебный материал онлайн. Не могли бы вы предложить какой-нибудь учебный материал для МИ?
user3897
0

Есть ли у вас основания полагать, что испытуемые с диабетом с большей или меньшей вероятностью заканчивали ответом DK / R? Если нет (и я был бы очень удивлен, узнав, что вы это сделали), включение этого предиктора в модель без учета этих случаев приведет к шуму. Таким образом, вы будете в меньшей степени оценивать, как «да» против «нет» влияет на предполагаемую вероятность диабета (потому что вы будете пытаться смоделировать влияние «да» или «нет»). против случайных ответов DK / R в противовес просто «да» против «нет»). Самый простой вариант - исключить случаи с ответами DK / R. Предполагая, что их ответы «да / нет» действительно отсутствовали в случайном порядке, исключая их, вы не сместите вашу оценку влияния «да» против «Нет». Такой подход, однако, уменьшит размер вашей выборки и, таким образом, уменьшит статистическую мощность в отношении остальных предикторов. Если у вас много DK / R по этой переменной, вы можете вменять ответы «да» / «нет» путем множественного вменения (возможно, наиболее, возможно, единственно оправданной стратегии вменения пропущенного значения).

dmk38
источник