Есть одна переменная в моих данных, 80% из которых отсутствуют. Данные отсутствуют из-за отсутствия (то есть, сколько банковского кредита компания должна). Я наткнулся на статью, в которой говорится, что метод корректировки фиктивной переменной является решением этой проблемы. То есть мне нужно преобразовать эту непрерывную переменную в категориальную?
Это единственное решение? Я не хочу отбрасывать эту переменную, так как теоретически считаю, что это важно для моего исследовательского вопроса.
Являются ли данные «отсутствующими» в смысле того, что они неизвестны, или это просто означает, что кредит отсутствует (таким образом, сумма кредита равна нулю)? Похоже на последнее, в этом случае вам нужен дополнительный двоичный манекен, чтобы указать, есть ли кредит. Преобразование суммы кредита не требуется (кроме, возможно, непрерывного повторного выражения, такого как корневой или запущенный журнал, что может быть указано в силу других соображений).
Это хорошо работает в регрессии. Простой пример - концептуальная модель формы
Они не будут рассматриваться как пропавшие без вести, они пойдут на оценку стоимости без кредита. Может быть, вы не дали кредит «NA», и в этом случае вам нужно перекодировать их в 0.
Джон
2
ИксИкс= 0я= 1
3
@ lcl23 Если я правильно понял ситуацию, вменение не имеет смысла: ваши «пропущенные» данные не пропадают; они указывают, что кредит не был взят.
whuber
1
я( Х= 1 )я( Х= 0 )
1
1βя0
1
Я думаю, что вы неправильно поняли предложение статьи: главным образом потому, что предложение не имеет смысла. Тогда у вас возникнут две проблемы: как перекодировать переменную, а ее значения по-прежнему отсутствуют. Вероятно, было предложено создать индикатор отсутствия .
Несколько актуальным подходом к обработке пропущенных данных, который слабо соответствует этому описанию, является корректировка показателя пропущенности . Это, конечно, простой и легкий подход, но в целом он предвзятый. Предвзятость может быть неограниченной в своей плохости. Это эффективно подходит для подбора двух моделей и усреднения их эффектов: первая модель является полностью условной моделью , а вторая - полной факторной моделью., Полностью условная модель - это полная модель случая, в которой удаляется каждое наблюдение с отсутствующими значениями. Таким образом, он соответствует 20% подмножеству данных. Второе - подгонка к оставшимся 80%, не корректирующая пропущенное значение вообще. Эта предельная модель оценивает те же эффекты, что и полная модель, когда нет неизмеренного взаимодействия, когда функция связи является разборной и когда данные отсутствуют в произвольном порядке (MAR). Эти эффекты затем объединяются с помощью взвешенного среднего. Даже в идеальных условиях, без неизмеренных взаимодействий и при отсутствии полностью случайных (MCAR) данных, подход с отсутствующим индикатором приводит к смещенным эффектам, потому что предельная модель и условная модель оценивают различные эффекты. Даже прогнозы в этом случае предвзяты.
Гораздо лучшая альтернатива - просто использовать множественное вменение. Даже когда фактор, в основном отсутствующий, измеряется при очень низкой распространенности, ИМ относительно неплохо справляется с задачей создания сложных реализаций того, какие возможные значения могли быть. Единственное необходимое здесь допущение - МАР.
Что означает «функция связи является сворачиваемой»?
Мэтью Друри
1
@MatthewDrury, по сути, «сворачиваемость» означает, что корректировка переменных, которые предсказывают результат, но не основной эффект (ы), повысят точность, но не изменят предполагаемый эффект.
AdamO
Круто, спасибо Адам. Не слышал этой терминологии раньше.
Я думаю, что вы неправильно поняли предложение статьи: главным образом потому, что предложение не имеет смысла. Тогда у вас возникнут две проблемы: как перекодировать переменную, а ее значения по-прежнему отсутствуют. Вероятно, было предложено создать индикатор отсутствия .
Несколько актуальным подходом к обработке пропущенных данных, который слабо соответствует этому описанию, является корректировка показателя пропущенности . Это, конечно, простой и легкий подход, но в целом он предвзятый. Предвзятость может быть неограниченной в своей плохости. Это эффективно подходит для подбора двух моделей и усреднения их эффектов: первая модель является полностью условной моделью , а вторая - полной факторной моделью., Полностью условная модель - это полная модель случая, в которой удаляется каждое наблюдение с отсутствующими значениями. Таким образом, он соответствует 20% подмножеству данных. Второе - подгонка к оставшимся 80%, не корректирующая пропущенное значение вообще. Эта предельная модель оценивает те же эффекты, что и полная модель, когда нет неизмеренного взаимодействия, когда функция связи является разборной и когда данные отсутствуют в произвольном порядке (MAR). Эти эффекты затем объединяются с помощью взвешенного среднего. Даже в идеальных условиях, без неизмеренных взаимодействий и при отсутствии полностью случайных (MCAR) данных, подход с отсутствующим индикатором приводит к смещенным эффектам, потому что предельная модель и условная модель оценивают различные эффекты. Даже прогнозы в этом случае предвзяты.
Гораздо лучшая альтернатива - просто использовать множественное вменение. Даже когда фактор, в основном отсутствующий, измеряется при очень низкой распространенности, ИМ относительно неплохо справляется с задачей создания сложных реализаций того, какие возможные значения могли быть. Единственное необходимое здесь допущение - МАР.
источник