Отбрасывание выбросов на основе «2,5-кратного среднеквадратичного значения»

13

В Kahneman and Deaton (2010) авторы пишут следующее:

Эта регрессия объясняет 37% дисперсии с среднеквадратической ошибкой (RMSE) 0,67852. Чтобы исключить выбросы и отчеты о неправдоподобных доходах, мы отбросили наблюдения, в которых абсолютная величина разницы между доходом от журнала и его прогнозом превысила среднеквадратичное значение в 2,5 раза.

Это обычная практика? Что такое интуиция за этим? Кажется несколько странным определять выбросы, основанные на модели, которая, во-первых, может быть не совсем точной. Разве не следует определять выбросы на каких-то теоретических основаниях того, что представляет собой правдоподобную ценность, а не на том, насколько хорошо ваша модель предсказывает реальные значения?


: Даниэль Канеман, Angus Deaton (2010): Высокий доход улучшает оценку жизни, но не эмоциональное благополучие. Слушания Национальной академии наук сентябрь 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107

змеином
источник
1
Когда вы даете цитату из бумаги, всегда дайте ссылку, которая включает номер страницы .
Восстановите Монику
7
Я не могу сказать, является ли это «обычной практикой», но я надеюсь, что нет. Автоматическое удаление «выбросов» в корне плохая идея. Возможно, ваша модель или критерий удаления не годятся, может быть, происходит что-то новое (начало спада, пробуждение новых возможностей), которое вы не должны игнорировать. // Другое дело, если вы можете отследить подозрительное значение для ошибки ввода данных или отказа оборудования, или если значение просто абсурдно вне графика (16'2 "высокий мужчина, парень с 61 оплачиваемым часом в прошлый вторник, 25-минутный полет SFO-ORD). Но не потому, что он не подходит для модели. Я знаю стартап, который
обанкротился
7
Статистическая достоверность этого подхода отражена в абсурдном количестве десятичных знаков, которые они сообщают для RMSE.
Франс Роденбург
Это похоже на грубое / героическое предположение о решении вопроса, который я задал несколько месяцев назад: stats.stackexchange.com/questions/390051/…
Адриан

Ответы:

30

Причина сброса этих данных указана прямо в цитате, а именно: «Устранить выбросы и неправдоподобные отчеты о доходах». Тот факт, что они ссылаются на обе эти вещи в совокупности, означает, что они признают, что по крайней мере некоторые из их выбросов не являются неправдоподобными значениями, и в любом случае они не приводят аргументов в пользу того, почему значения с высоким остатком следует считать «неправдоподобными». «ценности дохода. Делая это, они эффективно удаляют точки данных, потому что остатки выше, чем ожидается в их регрессионной модели. Как я уже говорил в других ответах здесь , это равносильно требованию реальности соответствовать вашим модельным допущениям и игнорированию частей реальности, которые не соответствуют этим допущениям.

Является ли это обычной практикой или нет, это ужасная практика, Это происходит потому, что с внешними точками данных трудно иметь дело, и аналитик не желает правильно их моделировать (например, используя модель, которая допускает более высокий эксцесс в терминах ошибок), поэтому они просто удаляют части реальности, которые не соответствуют их способности проводить статистическое моделирование. Эта практика статистически нежелательна и приводит к выводам, которые систематически недооценивают дисперсию и эксцесс в терминах ошибки. Авторы этой статьи сообщают, что из-за удаления этих выбросов они потеряли 3,22% своих данных (стр. 16490). Поскольку большинство этих данных были бы очень высокими доходами, это вызывает серьезные сомнения в их способности делать надежные выводы о влиянии высоких доходов (что является целью их статьи).

Восстановить Монику
источник
Как вы смеете критиковать за Даниэль Канеман! Шутки в сторону, это очень хорошие очки +1.
Тим
11
Канеман - очень хороший психолог, чьи книги я обычно получал и считал полезными. У каждого из них может быть пятьдесят Нобелевских премий - это не изменит того факта, что массовое удаление «выбросов» является ужасной статистической практикой.
Восстановить Монику
3
Естественно, я согласен с вами. Я не думал, что это нужно сказать.
Ник Кокс
1
@NickCox Вы имеете в виду так называемый «Нобелевский мемориальный приз» : я уверен, вы знаете, что он не был учрежден Нобелем и не имеет к нему никакого отношения. Официальное название, по-видимому, «Премия Сверигеса Риксбанка в области экономических наук в память Альфреда Нобеля».
говорит амеба: восстанови Монику
1
Ты уверен, что я знаю это, и ты действительно прав. Всегда авторитетный EJMR когда-то нес это сообщение обо мне «Нет, он никогда не выиграет Нобелевскую премию», что означает этот приз.
Ник Кокс