Я выполняю множественный регрессионный анализ и не уверен, следует ли удалять выбросы в моих данных. Данные, которые меня беспокоят, отображаются на прямоугольниках SPSS в виде «кружков», однако звездочек нет (что заставляет меня думать, что они не такие уж «плохие»). Случаи, которые меня беспокоят, отображаются в таблице «Диагностика случаев» в выходных данных - поэтому я должен удалить эти случаи?
regression
outliers
скоро
источник
источник
Ответы:
Пометка выбросов не является суждением (или в любом случае не обязательно). Учитывая статистическую модель, выбросы имеют точное, объективное определение: это наблюдения, которые не соответствуют шаблону большинства данных. Такие наблюдения должны быть отделены в начале любого анализа просто потому, что их расстояние от массива данных гарантирует, что они будут оказывать непропорциональное усилие на любую многомерную модель, подобранную по максимальному правдоподобию (или даже любой другой функции выпуклых потерь).
Важно отметить, что многомерная останец s просто не может быть надежно обнаружен при помощи остатков от наименьших квадратов (или любой другой модели , оцененной с помощью ML, или любой другой функции потерь выпуклым). Проще говоря, многовариантные выбросы могут быть надежно обнаружены только с помощью их остатков из модели, подобранной с использованием процедуры оценки, которая не может быть ими подвержена
Вера в то, что выбросы будут обязательно выделяться в остатках классического соответствия, занимает где-то там место с другими трудно опровергаемыми статистическими отрицаниями, такими как интерпретация значений p как меры доказательств или вывод о популяции из предвзятой выборки. За исключением, возможно, того, что этот может быть намного старше: сам Гаусс рекомендовал использовать надежную оценку, такую как медиана и безумие (вместо классического среднего значения и стандартных отклонений), чтобы оценить параметры нормального распределения из шумных наблюдений (даже идущих насколько выводит коэффициент согласованности безумца (1)).
Чтобы дать простой визуальный пример, основанный на реальных данных, рассмотрим печально известные данные звезды CYG . Красная линия здесь показывает подгонку наименьших квадратов, синяя линия - подгонку, полученную с использованием надежного подбора линейной регрессии. Надежная подгонка здесь - это подгонка FastLTS (2), альтернатива подгонке LS, которая может использоваться для обнаружения выбросов (поскольку она использует процедуру оценки, которая гарантирует, что влияние любого наблюдения на оцененный коэффициент ограничено). Код R для его воспроизведения:
Интересно, что 4 отдаленных наблюдения слева даже не имеют наибольших невязок относительно соответствия LS и графика QQ остатков соответствия LS (или любого из диагностических инструментов, полученных из них, таких как расстояние Кука или dfbeta) не может показать ни одного из них как проблемного. Это на самом деле норма: не требуется более двух выбросов (независимо от размера выборки), чтобы получить оценки LS таким образом, чтобы выбросы не выделялись на остаточном графике. Это называется маскирующим эффектоми это хорошо задокументировано. Возможно, единственное, что примечательно в наборе данных CYGstars, это то, что он является двумерным (следовательно, мы можем использовать визуальный осмотр для подтверждения результата надежного подбора) и что на самом деле есть хорошее объяснение того, почему эти четыре наблюдения слева настолько ненормальны.
Это, между прочим, исключение больше, чем правило: за исключением небольших пилотных исследований, включающих небольшие выборки и несколько переменных, и где человек, выполняющий статистический анализ, также был вовлечен в процесс сбора данных, у меня никогда не было случая, когда бытует мнение о идентичность выбросов на самом деле были правдой. Это, кстати, легко проверить. Независимо от того, были ли выбросы идентифицированы с использованием алгоритма обнаружения выброса или ощущения интуиции исследователя, выбросы по определению являются наблюдениями, которые имеют ненормальный рычаг (или «тягу») над коэффициентами, полученными из подбора LS. Другими словами, выбросы - это наблюдения, удаление которых из образца должно серьезно повлиять на подгонку LS.
Хотя я лично никогда не сталкивался с этим, в литературе есть несколько хорошо документированных случаев, когда наблюдения, помеченные как выбросы с помощью алгоритма обнаружения выбросов, были позже признаны грубыми ошибками или сгенерированы другим процессом. В любом случае, это не является ни научно обоснованным, ни разумным, чтобы удалять выбросы, только если их можно как-то понять или объяснить. Если небольшая группа наблюдений настолько удалена от основной части данных, что она может в одиночку извлекать результаты статистической процедуры сама по себе, разумно (и я мог бы добавить, естественно) рассматривать ее отдельно независимо от того, Эти данные не являются подозрительными и по другим причинам.
(1): см. Стивен М. Стиглер, «История статистики: измерение неопределенности до 1900 года».
(2): Вычисление регрессии LTS для больших наборов данных (2006) PJ Rousseeuw, K. van Driessen.
(3): надежные многомерные методы с высоким уровнем пробоя (2008). Hubert M., Rousseeuw PJ и Van Aelst S. Источник: Статистика. Sci. Том 23, 92-119.
источник
В общем, я осторожен с удалением «выбросов». Регрессионный анализ может быть правильно применен при наличии ненормально распределенных ошибок, ошибок, которые проявляют гетероскедастичность, или значений предикторов / независимых переменных, которые «далеки» от остальных. Истинная проблема с выбросами состоит в том, что они не следуют линейной модели, которой следуют все остальные точки данных. Как узнать, так ли это? Вы не
Во всяком случае, вы не хотите искать значения ваших переменных, которые являются выбросами; вместо этого вы хотите искать значения своих остатков, которые являются выбросами. Посмотрите на эти точки данных. Правильно ли записаны их переменные? Есть ли причина, по которой они не будут следовать той же модели, что и остальные ваши данные?
Конечно, причина, по которой эти наблюдения могут выглядеть как выбросы (согласно остаточной диагностике), может быть в том, что ваша модель неверна. У меня есть профессор, который любил говорить, что, если бы мы выбросили выбросы, мы все равно верили бы, что планеты вращаются вокруг Солнца в идеальных кругах. Кеплер мог выбросить Марс, и история круговой орбиты выглядела бы неплохо. Марс дал ключевое представление о том, что эта модель неверна, и он пропустил бы этот результат, если бы проигнорировал эту планету.
Вы упомянули, что удаление выбросов не сильно изменит ваши результаты. Либо это потому, что у вас есть только очень небольшое количество наблюдений, которые вы удалили относительно вашей выборки, или они разумно согласуются с вашей моделью. Это может указывать на то, что, хотя сами переменные могут отличаться от остальных, их остатки не столь выдающиеся. Я бы оставил их и не пытался оправдать свое решение убрать некоторые моменты для моих критиков.
источник
+1 к @Charlie и @PeterFlom; Вы получаете хорошую информацию там. Возможно, я могу внести небольшой вклад, оспаривая предпосылку вопроса. Boxplot обычно (программное обеспечение может меняться, и я не знаю точно , что делает SPSS) точки меток более чем в 1,5 раза Inter-квартиль диапазоне выше (ниже) третьего (первого) квартили как «выбросы». Тем не менее, мы можем спросить, как часто мы должны ожидать найти хотя бы одну такую точку, когда мы знаем, что все точки происходят из одного и того же распределения? Простая симуляция может помочь нам ответить на этот вопрос:
Это демонстрирует, что такие точки можно ожидать обычно (> 50% времени) с образцами размером 100, даже когда ничего не происходит. Как подсказывает последнее предложение, вероятность обнаружения ложного «выброса» с помощью стратегии boxplot будет зависеть от размера выборки:
Существуют и другие стратегии для автоматического определения выбросов, но любой такой метод иногда неверно определяет действительные точки как «выбросы», а иногда неправильно идентифицирует истинные выбросы как «действительные точки». (Вы можете думать об этом как об ошибках типа I и типа II .) Я думаю об этой проблеме (для чего она стоит), чтобы сосредоточиться на эффектах включения / исключения рассматриваемых вопросов. Если ваша цель - прогнозирование, вы можете использовать перекрестную проверку, чтобы определить, увеличивает ли / включает ли рассматриваемые точки среднеквадратичную ошибку прогноза . Если вашей целью является объяснение, вы можете посмотреть на dfBeta(то есть посмотрите, насколько бета-оценки вашей модели изменяются в зависимости от того, включены ли рассматриваемые точки или нет). Другая перспектива (возможно, лучшая) состоит в том, чтобы избежать необходимости выбирать, следует ли отбрасывать аберрантные точки, и вместо этого просто использовать надежный анализ .
источник
Вы должны сначала взглянуть на графики остатков: они следуют (примерно) нормальному распределению? Они показывают признаки гетероскедастичности? Посмотрите и на другие графики (я не использую SPSS, поэтому не могу точно сказать, как сделать это в этой программе, и какие боксплоты вы смотрите, однако трудно представить, что звездочки означают «не так уж плохо», они, вероятно, означают что это очень необычные точки по некоторому критерию).
Затем, если у вас есть выбросы, посмотрите на них и попытайтесь выяснить, почему.
Тогда вы можете попробовать регрессию с и без выбросов. Если результаты похожи, жизнь хороша. Сообщите о полных результатах со сноской. Если не похожи, то вы должны объяснить обе регрессии.
источник