Кто-нибудь знает, как определить, являются ли пункты 7, 16 и 29 влиятельными или нет? Я где-то читал, что, поскольку расстояние Кука меньше 1, это не так. Я прав?
r
regression
residuals
diagnostic
cooks-distance
Platypezid
источник
источник
Ответы:
В некоторых текстах говорится, что точки, для которых расстояние Кука больше 1, следует рассматривать как влиятельные. Другие тексты дают вам порог или , где - количество наблюдений, а - количество объясняющих переменных. В вашем случае последняя формула должна дать порог около 0,1.4 / ( N - k - 1 ) N k4 / N 4 / ( N- к - 1 ) N К
Джон Фокс (1) в своем буклете по регрессионной диагностике весьма осторожен, когда речь идет о числовых порогах. Он советует использовать графику и более детально изучить точки со «значениями D, которые значительно больше остальных». По словам Фокса, пороги следует использовать только для улучшения графического отображения.
В вашем случае наблюдения 7 и 16 могут рассматриваться как влиятельные. Ну, я бы хотя бы поближе взглянул на них. Наблюдение 29 существенно не отличается от пары других наблюдений.
(1) Фокс, Джон. (1991). Регрессионная диагностика: введение . Sage Publications.
источник
Здесь стоит отметить еще один момент. В обсервационных исследованиях часто бывает трудно сделать выборку равномерно по всему пространству предикторов, и у вас может быть всего несколько точек в данной области. Такие точки могут отличаться от остальных. Наличие нескольких отдельных случаев может приводить в замешательство, но заслуживает значительных размышлений, прежде чем их выбросят. На законных основаниях может существовать взаимодействие между предикторами, или система может изменить свое поведение, когда значения предикторов становятся экстремальными. Кроме того, они могут помочь вам распутать эффекты коллинеарных предикторов. Влиятельные точки могут быть замаскированным благословением.
источник