В Kahneman and Deaton (2010) † авторы пишут следующее:
Эта регрессия объясняет 37% дисперсии с среднеквадратической ошибкой (RMSE) 0,67852. Чтобы исключить выбросы и отчеты о неправдоподобных доходах, мы отбросили наблюдения, в которых абсолютная величина разницы между доходом от журнала и его прогнозом превысила среднеквадратичное значение в 2,5 раза.
Это обычная практика? Что такое интуиция за этим? Кажется несколько странным определять выбросы, основанные на модели, которая, во-первых, может быть не совсем точной. Разве не следует определять выбросы на каких-то теоретических основаниях того, что представляет собой правдоподобную ценность, а не на том, насколько хорошо ваша модель предсказывает реальные значения?
: Даниэль Канеман, Angus Deaton (2010): Высокий доход улучшает оценку жизни, но не эмоциональное благополучие. Слушания Национальной академии наук сентябрь 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107
источник
Ответы:
Причина сброса этих данных указана прямо в цитате, а именно: «Устранить выбросы и неправдоподобные отчеты о доходах». Тот факт, что они ссылаются на обе эти вещи в совокупности, означает, что они признают, что по крайней мере некоторые из их выбросов не являются неправдоподобными значениями, и в любом случае они не приводят аргументов в пользу того, почему значения с высоким остатком следует считать «неправдоподобными». «ценности дохода. Делая это, они эффективно удаляют точки данных, потому что остатки выше, чем ожидается в их регрессионной модели. Как я уже говорил в других ответах здесь , это равносильно требованию реальности соответствовать вашим модельным допущениям и игнорированию частей реальности, которые не соответствуют этим допущениям.
Является ли это обычной практикой или нет, это ужасная практика, Это происходит потому, что с внешними точками данных трудно иметь дело, и аналитик не желает правильно их моделировать (например, используя модель, которая допускает более высокий эксцесс в терминах ошибок), поэтому они просто удаляют части реальности, которые не соответствуют их способности проводить статистическое моделирование. Эта практика статистически нежелательна и приводит к выводам, которые систематически недооценивают дисперсию и эксцесс в терминах ошибки. Авторы этой статьи сообщают, что из-за удаления этих выбросов они потеряли 3,22% своих данных (стр. 16490). Поскольку большинство этих данных были бы очень высокими доходами, это вызывает серьезные сомнения в их способности делать надежные выводы о влиянии высоких доходов (что является целью их статьи).
источник