Интересно, может ли кто-нибудь дать некоторое представление о том, является ли лучше объяснение почему отсутствующие данные, чем простое построение различных моделей для случаев с отсутствующими данными. Особенно в случае [обобщенных] линейных моделей (возможно, я вижу, что в нелинейных случаях все иначе)
Предположим, у нас есть базовая линейная модель:
Но наш набор данных содержит некоторые записи с отсутствующим . В наборе данных прогноза, где будет использоваться модель, также будут случаи пропуска . Кажется, есть два пути:X 3
Несколько моделей
Мы могли бы разделить данные на и не и построить отдельную модель для каждого из них. Если мы предположим, что тесно связан с то отсутствующая модель данных может перевесить чтобы получить лучший прогноз с двумя предикторами. Кроме того, если пропущенные данные немного отличаются (из-за отсутствующего механизма данных), то это может включать эту разницу. С другой стороны, обе модели соответствуют только части данных и не «помогают» друг другу, поэтому при ограниченных наборах данных соответствие может быть плохим.Х 3 Х 3 Х 2 Х 2
вменение в вину
Многократное вменение регрессии сначала заполнило бы , построив модель, основанную на и и затем бы случайную выборку для поддержания шума в вмененных данных. Поскольку это опять две модели, не будет ли это в конечном итоге таким же, как метод нескольких моделей, описанный выше? Если он способен выиграть - откуда берется выигрыш? Это просто, что подгонка для сделана на всем наборе?X 1 X 2 X 1
РЕДАКТИРОВАТЬ:
Хотя ответ Стеффана до сих пор объясняет, что подгонка полной модели кейса к вмененным данным превзойдет подгонку к полным данным, и кажется очевидным, что обратное верно, все еще существует некоторое недопонимание в отношении прогнозирования недостающих данных.
Если у меня есть вышеупомянутая модель, даже идеально подходящая, это будет вообще ужасная модель прогнозирования, если я просто введу ноль при прогнозировании. Представьте, например, что тогда совершенно бесполезен ( ), когда присутствует , но все равно будет полезен в отсутствие .Х 2 β 2 = 0 Х 3 Х 3
Ключевой вопрос, который я не понимаю: лучше ли построить две модели, одну с использованием и одну с использованием , или лучше построить одну (полную) модель и использовать вложение в прогнозные наборы данных - или это одно и то же?
Ввиду ответа Штеффана, может показаться, что лучше построить полную модель случая на вменяемом обучающем наборе, и, наоборот, вероятно, лучше построить недостающую модель данных на полном наборе данных с отброшенным . Отличается ли этот второй шаг от использования модели вменения в данных прогнозирования?
Я предполагаю, что вы заинтересованы в получении объективных оценок коэффициентов регрессии. Анализ полных случаев дает несмещенные оценки ваших коэффициентов регрессии при условии, что вероятность пропуска X3 не зависит от Y. Это верно, даже если вероятность пропуска зависит от X1 или X2 и для любого типа регрессионного анализа.
Конечно, оценки могут быть неэффективными, если доля завершенных дел мала. В этом случае вы можете использовать множественное вложение X3, заданных X2, X1 и Y, чтобы повысить точность. См. White and Carlin (2010) Stat Med для деталей.
источник
Одно исследование из Гарварда предлагает множественное вменение с пятью прогнозами недостающих данных (вот ссылка, http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). Даже тогда я вспоминаю комментарии о том, что модели вменения могут все еще не создавать интервалы покрытия для параметров модели, которые не включают истинные базовые значения!
Имея это в виду, представляется, что лучше всего использовать пять простых наивных моделей для отсутствующего значения (при условии, что они не пропущены случайно в текущем обсуждении), которые дают хороший разброс значений, так что интервалы покрытия могут, по крайней мере, содержать истинные параметры ,
Мой опыт в теории выборки заключается в том, что много ресурсов часто расходуется на субвыбор населения без ответа, который, порой, кажется, сильно отличается от населения ответа. Таким образом, я бы рекомендовал подобное упражнение для регрессии отсутствующих значений хотя бы один раз в конкретной области применения. Отношения, не обнаруженные при таком исследовании отсутствующих данных, могут иметь историческую ценность при построении лучших моделей прогнозирования недостающих данных на будущее.
источник