Влиятельные наблюдения - это те наблюдения, которые относительно сильно влияют на прогнозы регрессионной модели.
Точки воздействия - это те наблюдения, если таковые имеются, сделанные при экстремальных или внешних значениях независимых переменных, так что отсутствие соседних наблюдений означает, что подобранная модель регрессии пройдет близко к этому конкретному наблюдению.
Почему следующее сравнение из Википедии
Хотя влиятельная точка обычно имеет высокое кредитное плечо , высокая кредитная точка не обязательно является влиятельной .
Ответы:
Вообразите любую линию регрессии, приспособленную к некоторым данным.
Теперь представьте себе дополнительную точку данных, которая находится на некотором расстоянии от основной части данных, но расположена где-то вдоль этой линии регрессии.
Если бы линия регрессии была переоснащена, коэффициенты не изменились бы. И наоборот, удаление дополнительного выброса будет иметь нулевое влияние на коэффициенты.
Таким образом, выброс или точка влияния могли бы иметь нулевое влияние, если бы они полностью соответствовали остальным данным и модели, которая подразумевает остальные.
Для «линии» читайте «плоскость» или «гиперплоскость», если хотите, но здесь достаточно простейшего примера двух переменных и графика рассеяния.
Однако, так как вы любите определения - часто кажется, что они слишком много читают - вот мое любимое определение выбросов:
«Выбросы представляют собой значения выборки, которые вызывают удивление по отношению к большей части выборки» (WN Venables и BD Ripley. 2002. Современная прикладная статистика с S. New York: Springer, p.119).
Важно отметить, что неожиданность находится в сознании наблюдателя и зависит от какой-то неявной или явной модели данных. Может существовать другая модель, при которой выброс не удивителен, например, если данные действительно являются логнормальными или гамма, а не нормальными.
PS Я не думаю, что в точках кредитного плеча обязательно отсутствуют соседние наблюдения. Например, они могут встречаться парами.
источник
Легко показать, как высокая точка кредитного плеча может не влиять на простую линейную модель:
Синяя линия - это линия регрессии, основанная на всех данных, красная линия игнорирует точку в правом верхнем углу графика.
Эта точка соответствует определению точки высокого плеча, которую вы только что предоставили, так как она далеко от остальных данных. Из-за этого линия регрессии (синяя) должна проходить рядом с ней. Но поскольку его положение в значительной степени соответствует шаблону, наблюдаемому в остальных данных, другая модель могла бы предсказать его очень хорошо (т. Е. Красная линия уже проходит близко к нему в любом случае), и поэтому она не имеет особого влияния.
Сравните это со следующей диаграммой рассеяния:
Здесь точка справа от графика все еще остается точкой высокого плеча, но на этот раз она не совсем соответствует схеме, наблюдаемой в остальных данных. Синяя линия (линейное соответствие, основанное на всех данных) проходит очень близко, а красная линия - нет. Включение или исключение этой единственной точки значительно меняет оценки параметров: это оказывает большое влияние.
Обратите внимание, что приведенные вами определения и примеры, которые я только что привел, могут показаться, что высокие рычаги / влиятельные точки в некотором смысле являются одномерными «выбросами» и что подобранная линия регрессии пройдет близко к точкам с наибольшим влиянием, но это необходимо не будь так.
В этом последнем примере наблюдение в правом нижнем углу оказывает (относительно) большое влияние на подгонку модели (снова видно по разнице между красной и синей линиями), но оно все еще кажется далеко от линии регрессии. будучи необнаружимым в одномерных распределениях (представленных здесь «ковриками» вдоль осей).
источник