Следует ли удалять случаи, отмеченные статистическими программами как выбросы при выполнении множественной регрессии?

23

Я выполняю множественный регрессионный анализ и не уверен, следует ли удалять выбросы в моих данных. Данные, которые меня беспокоят, отображаются на прямоугольниках SPSS в виде «кружков», однако звездочек нет (что заставляет меня думать, что они не такие уж «плохие»). Случаи, которые меня беспокоят, отображаются в таблице «Диагностика случаев» в выходных данных - поэтому я должен удалить эти случаи?

скоро
источник
Большое спасибо, Чарли и Эпиград. Не могли бы вы предложить, какой график в SPSS я смотрю, чтобы оценить, есть ли выбросы в остатках? Scatterplot выглядит довольно грязно! У меня нет никаких проблем с данными как таковыми (поскольку они не были введены неправильно), я просто думаю, что некоторые из моих участников имели гораздо более высокие оценки по некоторым из моих шкал, то есть потому, что они были гораздо более социально озабочены, что остальная часть образца.
Anon
3
Вы должны построить прогнозируемое значение y (значение, данное в соответствии с оценочной моделью) по оси x и невязки по оси y. Вместо предсказанного значения y, вы можете поместить одну из ваших предикторов / независимых переменных на ось x. Вы можете создать несколько графиков, каждый с различным предиктором на оси x, чтобы увидеть, какое значение x ведет к выбросу. Опять же, я бы предостерег от удаления выбросов; вместо этого проанализируйте, почему происходит выброс.
Чарли
1
Повторяя утверждение Чарли, важно «почему», а не «если», и я бы тоже предостерег от их удаления. Я не знаком с SPSS, но любые функции, которые вы использовали для запуска регрессии, должны также дать вам график остатков или, по крайней мере, их значение, которое вы можете использовать для составления графика, предложенного Чарли.
Fomite
@ Я скоро объединил твои два аккаунта. Пожалуйста, зарегистрируйтесь, чтобы вы могли обновить и / или прокомментировать свой вопрос.
ЧЛ
3
@ user603 Нет, вы меня не правильно прочитали. «Выброс» ничего не значит, особенно если он отмечен автоматической процедурой в статистическом программном обеспечении. Есть так же много примеров важных результатов исследования в «выбросах». Всякий раз, когда у вас есть данные, которые вы удаляете, это должно быть по причине. «Они неудобны» - не причина.
Fomite

Ответы:

25

Пометка выбросов не является суждением (или в любом случае не обязательно). Учитывая статистическую модель, выбросы имеют точное, объективное определение: это наблюдения, которые не соответствуют шаблону большинства данных. Такие наблюдения должны быть отделены в начале любого анализа просто потому, что их расстояние от массива данных гарантирует, что они будут оказывать непропорциональное усилие на любую многомерную модель, подобранную по максимальному правдоподобию (или даже любой другой функции выпуклых потерь).

Важно отметить, что многомерная останец s просто не может быть надежно обнаружен при помощи остатков от наименьших квадратов (или любой другой модели , оцененной с помощью ML, или любой другой функции потерь выпуклым). Проще говоря, многовариантные выбросы могут быть надежно обнаружены только с помощью их остатков из модели, подобранной с использованием процедуры оценки, которая не может быть ими подвержена

Вера в то, что выбросы будут обязательно выделяться в остатках классического соответствия, занимает где-то там место с другими трудно опровергаемыми статистическими отрицаниями, такими как интерпретация значений p как меры доказательств или вывод о популяции из предвзятой выборки. За исключением, возможно, того, что этот может быть намного старше: сам Гаусс рекомендовал использовать надежную оценку, такую ​​как медиана и безумие (вместо классического среднего значения и стандартных отклонений), чтобы оценить параметры нормального распределения из шумных наблюдений (даже идущих насколько выводит коэффициент согласованности безумца (1)).

Чтобы дать простой визуальный пример, основанный на реальных данных, рассмотрим печально известные данные звезды CYG . Красная линия здесь показывает подгонку наименьших квадратов, синяя линия - подгонку, полученную с использованием надежного подбора линейной регрессии. Надежная подгонка здесь - это подгонка FastLTS (2), альтернатива подгонке LS, которая может использоваться для обнаружения выбросов (поскольку она использует процедуру оценки, которая гарантирует, что влияние любого наблюдения на оцененный коэффициент ограничено). Код R для его воспроизведения:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

данные Звезды

Интересно, что 4 отдаленных наблюдения слева даже не имеют наибольших невязок относительно соответствия LS и графика QQ остатков соответствия LS (или любого из диагностических инструментов, полученных из них, таких как расстояние Кука или dfbeta) не может показать ни одного из них как проблемного. Это на самом деле норма: не требуется более двух выбросов (независимо от размера выборки), чтобы получить оценки LS таким образом, чтобы выбросы не выделялись на остаточном графике. Это называется маскирующим эффектоми это хорошо задокументировано. Возможно, единственное, что примечательно в наборе данных CYGstars, это то, что он является двумерным (следовательно, мы можем использовать визуальный осмотр для подтверждения результата надежного подбора) и что на самом деле есть хорошее объяснение того, почему эти четыре наблюдения слева настолько ненормальны.

Это, между прочим, исключение больше, чем правило: за исключением небольших пилотных исследований, включающих небольшие выборки и несколько переменных, и где человек, выполняющий статистический анализ, также был вовлечен в процесс сбора данных, у меня никогда не было случая, когда бытует мнение о идентичность выбросов на самом деле были правдой. Это, кстати, легко проверить. Независимо от того, были ли выбросы идентифицированы с использованием алгоритма обнаружения выброса или ощущения интуиции исследователя, выбросы по определению являются наблюдениями, которые имеют ненормальный рычаг (или «тягу») над коэффициентами, полученными из подбора LS. Другими словами, выбросы - это наблюдения, удаление которых из образца должно серьезно повлиять на подгонку LS.

Хотя я лично никогда не сталкивался с этим, в литературе есть несколько хорошо документированных случаев, когда наблюдения, помеченные как выбросы с помощью алгоритма обнаружения выбросов, были позже признаны грубыми ошибками или сгенерированы другим процессом. В любом случае, это не является ни научно обоснованным, ни разумным, чтобы удалять выбросы, только если их можно как-то понять или объяснить. Если небольшая группа наблюдений настолько удалена от основной части данных, что она может в одиночку извлекать результаты статистической процедуры сама по себе, разумно (и я мог бы добавить, естественно) рассматривать ее отдельно независимо от того, Эти данные не являются подозрительными и по другим причинам.

(1): см. Стивен М. Стиглер, «История статистики: измерение неопределенности до 1900 года».

(2): Вычисление регрессии LTS для больших наборов данных (2006) PJ Rousseeuw, K. van Driessen.

(3): надежные многомерные методы с высоким уровнем пробоя (2008). Hubert M., Rousseeuw PJ и Van Aelst S. Источник: Статистика. Sci. Том 23, 92-119.

user603
источник
6
Это хороший материал (+1). Тем не менее, я думаю, что вы неправильно используете традиционную терминологию и выбрали «выброс» для обозначения «влиятельного наблюдения». Оба понятия ценны, и вы хорошо относитесь к последнему здесь, но они не так взаимозаменяемы, как вам кажется. Например, влиятельное наблюдение, которое согласуется с большинством данных, будет соответствовать вашей характеристике «наблюдений, которые имеют ненормальное влияние (или« тягу ») над коэффициентами, полученными из соответствия LS», но не будут рассматриваться большинством авторов быть "выбросом" как таковым.
whuber
2
@whuber: Хороший вопрос. Действительно, я считаю, как и недавние учебники по надежной статистике (например, Робастная статистика: теория и методы. Уайли), такие наблюдения (так называемые «точки хорошего рычага») вредными. Обоснование состоит в том, что они снижают стандартную ошибку оценочных коэффициентов, заставляя пользователя придать необоснованную уверенность в силе наблюдаемой зависимости. Рассмотрение хороших точек левериджа в качестве выбросов также делает формальный подход более последовательным: в конце концов, хорошие точки левереджа оказывают огромное влияние на самих себя, которые являются компонентом соответствия LS / ML.
user603 25.02.13
3
+1 Очень хороший пример. Реальные данные, которые показывают два подгонки, которые являются почти ортогональными, и в которых очень влиятельные четыре в верхнем левом углу не будут иметь наибольших остатков после подгонки OLS.
Уэйн
19

В общем, я осторожен с удалением «выбросов». Регрессионный анализ может быть правильно применен при наличии ненормально распределенных ошибок, ошибок, которые проявляют гетероскедастичность, или значений предикторов / независимых переменных, которые «далеки» от остальных. Истинная проблема с выбросами состоит в том, что они не следуют линейной модели, которой следуют все остальные точки данных. Как узнать, так ли это? Вы не

Во всяком случае, вы не хотите искать значения ваших переменных, которые являются выбросами; вместо этого вы хотите искать значения своих остатков, которые являются выбросами. Посмотрите на эти точки данных. Правильно ли записаны их переменные? Есть ли причина, по которой они не будут следовать той же модели, что и остальные ваши данные?

Конечно, причина, по которой эти наблюдения могут выглядеть как выбросы (согласно остаточной диагностике), может быть в том, что ваша модель неверна. У меня есть профессор, который любил говорить, что, если бы мы выбросили выбросы, мы все равно верили бы, что планеты вращаются вокруг Солнца в идеальных кругах. Кеплер мог выбросить Марс, и история круговой орбиты выглядела бы неплохо. Марс дал ключевое представление о том, что эта модель неверна, и он пропустил бы этот результат, если бы проигнорировал эту планету.

Вы упомянули, что удаление выбросов не сильно изменит ваши результаты. Либо это потому, что у вас есть только очень небольшое количество наблюдений, которые вы удалили относительно вашей выборки, или они разумно согласуются с вашей моделью. Это может указывать на то, что, хотя сами переменные могут отличаться от остальных, их остатки не столь выдающиеся. Я бы оставил их и не пытался оправдать свое решение убрать некоторые моменты для моих критиков.

Чарли
источник
6
+1 Не выбрасывайте данные, потому что это выброс. Узнайте, почему некоторые данные не соответствуют действительности.
Fomite
2
это ужасный совет. Обычно выбросы находятся настолько далеко от остальной части данных, что вытягивают линию регрессии к ним таким образом, чтобы они не выделялись на остаточном графике (или, что еще хуже, дают большие остатки для подлинных данных). данные точки). Фактически, можно показать, что, как только у вас есть более одного выброса, его нельзя надежно обнаружить с помощью остаточного графика из классической регрессии. Это называется маскирующим эффектом, и я хорошо задокументирован, особенно во многих реальных примерах данных.
user603
Кстати, именно поэтому я бы и не использовал пример с Марсом: он иллюстрирует процедуру, которая работает, только если вы имеете дело с одним выбросом. В большинстве приложений нет такой гарантии. Это дает неверное чувство уверенности в общей ошибочной методологии (которую, как статистику, мы действительно должны стараться предотвратить).
user603 25.02.13
15

+1 к @Charlie и @PeterFlom; Вы получаете хорошую информацию там. Возможно, я могу внести небольшой вклад, оспаривая предпосылку вопроса. Boxplot обычно (программное обеспечение может меняться, и я не знаю точно , что делает SPSS) точки меток более чем в 1,5 раза Inter-квартиль диапазоне выше (ниже) третьего (первого) квартили как «выбросы». Тем не менее, мы можем спросить, как часто мы должны ожидать найти хотя бы одну такую ​​точку, когда мы знаем, что все точки происходят из одного и того же распределения? Простая симуляция может помочь нам ответить на этот вопрос:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

Это демонстрирует, что такие точки можно ожидать обычно (> 50% времени) с образцами размером 100, даже когда ничего не происходит. Как подсказывает последнее предложение, вероятность обнаружения ложного «выброса» с помощью стратегии boxplot будет зависеть от размера выборки:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

Существуют и другие стратегии для автоматического определения выбросов, но любой такой метод иногда неверно определяет действительные точки как «выбросы», а иногда неправильно идентифицирует истинные выбросы как «действительные точки». (Вы можете думать об этом как об ошибках типа I и типа II .) Я думаю об этой проблеме (для чего она стоит), чтобы сосредоточиться на эффектах включения / исключения рассматриваемых вопросов. Если ваша цель - прогнозирование, вы можете использовать перекрестную проверку, чтобы определить, увеличивает ли / включает ли рассматриваемые точки среднеквадратичную ошибку прогноза . Если вашей целью является объяснение, вы можете посмотреть на dfBeta(то есть посмотрите, насколько бета-оценки вашей модели изменяются в зависимости от того, включены ли рассматриваемые точки или нет). Другая перспектива (возможно, лучшая) состоит в том, чтобы избежать необходимости выбирать, следует ли отбрасывать аберрантные точки, и вместо этого просто использовать надежный анализ .

Gung - Восстановить Монику
источник
Процедуры, которые вы рекомендуете, работают надежно, только если есть не более одного выброса (независимо от размера вашего набора данных), что является нереалистичным допущением. Тьюки откалибровал правило усов, чтобы исключить примерно 1% наблюдений на каждом конце, если данные взяты из распределения Гаусса. Ваши симуляции подтверждают это. По мнению Тьюки, потери, вызванные игнорированием такой небольшой части данных в тех случаях, когда наблюдения ведутся хорошо, для всех практических вопросов несущественны. Особенно в отношении преимуществ в тех случаях, когда данных нет.
user603
2
Спасибо за ваш комментарий, @ user603; это заставляет задуматься. Какие процедуры, которые я рекомендую, вы возражаете против: использования, например, dfbeta для обнаружения возможных выбросов или использования надежного анализа (прототипа квадрата Тьюки в качестве альтернативной функции потерь) в качестве защиты от их влияния вместо выбора точек данных, которые следует выбрасывать?
gung - Восстановить Монику
спасибо за указание на отсутствие ясности в моем комментарии (я был ограничен по длине). Конечно, я имею в виду первые из них: dfbeta и перекрестная проверка (последний проблематичен только в том случае, если наблюдения, используемые для выполнения перекрестной проверки, случайным образом взяты из исходного образца. Примером использования перекрестной проверки может быть находиться в так называемой настройке контроля качества, где наблюдения, используемые для тестирования, взяты из временно непересекающейся выборки).
user603 25.02.13
Спасибо за разъяснения, @ user603. Мне придется играть с этими идеями, чтобы понять их более тщательно. Моя интуиция заключается в том, что было бы довольно трудно не заметить выбросы, которые искажают ваши результаты; кажется, что вам нужно, чтобы выбросы искажали результаты с обеих сторон в равной степени, и в этом случае ваши бета-версии окажутся примерно беспристрастными, а ваши результаты будут просто менее «значительными».
gung - Восстановить Монику
1
Моя интуиция заключается в том, что было бы довольно трудно не заметить выбросы, которые искажают ваши результаты, но, к сожалению, факт в том, что это не так. Также посмотрите на пример, который я привожу в своем ответе.
user603 25.02.13
12

Вы должны сначала взглянуть на графики остатков: они следуют (примерно) нормальному распределению? Они показывают признаки гетероскедастичности? Посмотрите и на другие графики (я не использую SPSS, поэтому не могу точно сказать, как сделать это в этой программе, и какие боксплоты вы смотрите, однако трудно представить, что звездочки означают «не так уж плохо», они, вероятно, означают что это очень необычные точки по некоторому критерию).

Затем, если у вас есть выбросы, посмотрите на них и попытайтесь выяснить, почему.

Тогда вы можете попробовать регрессию с и без выбросов. Если результаты похожи, жизнь хороша. Сообщите о полных результатах со сноской. Если не похожи, то вы должны объяснить обе регрессии.

Питер Флом - Восстановить Монику
источник
1
Спасибо большое, Питер. Я проверил графики QQ, и данные не кажутся совершенно ненормальными. Когда я удаляю выбросы, они, кажется, не имеют большого значения для результатов. Итак, я должен просто оставить их в? Мне все еще было бы интересно услышать чужие мысли в таблице диагностики случаев в SPSS. Большое спасибо.
Anon
1
Да, я бы оставил их со сноской, что-то вроде «анализ с несколькими удаленными выбросами показал очень похожие результаты»
Питер Флом - Восстановить Монику
2
Даже если предположить, что можно надежно найти выбросы, используя такую ​​процедуру (и большую часть времени этого не сделаешь), которая до сих пор странным образом не решает проблему того, что делать, когда вы не можете «выяснить» / объяснить выбросы. Я второй совет, чтобы избежать SPSS. -
user603