Я читал на расстоянии повара, чтобы определить выбросы, которые имеют большое влияние на мою регрессию. В оригинальном исследовании Кука он говорит, что уровень отсечки 1 должен быть сопоставим для выявления влияющих факторов. Тем не менее, различные другие исследования используют или в качестве отсечения.
В моем исследовании ни один из моих остатков не имеет D больше 1. Однако, если я использую в качестве отсечки , то есть различные данные точки, которые считаются влияющими. Я решил проверить, изменит ли удаление этих точек данных мою общую линейную регрессию. Все мои IVs сохранили свое значение, и никаких очевидных изменений не было очевидно.
Должен ли я сохранить все свои данные и использовать частоту отсечения 1? Или удалить их?
outliers
cooks-distance
dissertationhelp
источник
источник
Ответы:
Я бы, наверное, пошел с вашей оригинальной моделью с вашим полным набором данных. Я обычно думаю об этих вещах как об облегчении анализа чувствительности. То есть они указывают вам на то, что проверять, чтобы убедиться, что у вас нет заданного результата только из-за чего-то глупого. В вашем случае у вас есть некоторые потенциально влиятельные моменты, но если вы повторно запустите модель без них, вы получите практически тот же ответ (по крайней мере, в отношении аспектов, которые, по-видимому, вас волнуют). Другими словами, используйте любой порог, который вам нравится - вы переоборудуете модель только как проверку, а не как «истинную» версию. Если вы думаете, что другие люди будут в достаточной степени обеспокоены потенциальными выбросами, вы можете сообщить об обеих моделях. То, что вы сказали бы, по линии,
Также возможно удалить их и использовать вторую модель в качестве основного результата. В конце концов, пребывание с исходным набором данных равносильно предположению о том, какие данные относятся к модели так же, как и к подмножеству. Но люди, вероятно, будут очень скептически относиться к вашим отчетным результатам, потому что психологически слишком легко кому-то убедить себя, без каких-либо фактических искаженных намерений, пойти с набором пост-специальных настроек (таких как отбрасывание некоторых наблюдений), которые дают им результат, которого они больше всего ожидали увидеть. Постоянно используя полный набор данных, вы упускаете такую возможность и заверяете людей (скажем, рецензентов), что это не то, что происходит в вашем проекте.
Другая проблема заключается в том, что люди « гоняются за пузырем ». Когда вы отбрасываете некоторые потенциальные выбросы и повторно запускаете свою модель, вы получаете результаты, которые показывают новые, разные наблюдения в качестве потенциальных выбросов. Сколько итераций вы должны пройти? Стандартный ответ на это заключается в том, что вы должны остаться с исходным, полным набором данных и вместо этого выполнить надежную регрессию . Это опять же, можно понимать как анализ чувствительности.
источник