Точное значение и сравнение между влиятельной точкой, точкой высокого плеча и выбросом?

15

Из Википедии

Влиятельные наблюдения - это те наблюдения, которые относительно сильно влияют на прогнозы регрессионной модели.

Из Википедии

Точки воздействия - это те наблюдения, если таковые имеются, сделанные при экстремальных или внешних значениях независимых переменных, так что отсутствие соседних наблюдений означает, что подобранная модель регрессии пройдет близко к этому конкретному наблюдению.

Почему следующее сравнение из Википедии

Хотя влиятельная точка обычно имеет высокое кредитное плечо , высокая кредитная точка не обязательно является влиятельной .

Тим
источник
2
Ответы ниже хорошие. Это также может помочь прочитать мой ответ здесь: Интерпретация plot.lm () .
gung - Восстановить Монику

Ответы:

13

Вообразите любую линию регрессии, приспособленную к некоторым данным.

Теперь представьте себе дополнительную точку данных, которая находится на некотором расстоянии от основной части данных, но расположена где-то вдоль этой линии регрессии.

Если бы линия регрессии была переоснащена, коэффициенты не изменились бы. И наоборот, удаление дополнительного выброса будет иметь нулевое влияние на коэффициенты.

Таким образом, выброс или точка влияния могли бы иметь нулевое влияние, если бы они полностью соответствовали остальным данным и модели, которая подразумевает остальные.

Для «линии» читайте «плоскость» или «гиперплоскость», если хотите, но здесь достаточно простейшего примера двух переменных и графика рассеяния.

Однако, так как вы любите определения - часто кажется, что они слишком много читают - вот мое любимое определение выбросов:

«Выбросы представляют собой значения выборки, которые вызывают удивление по отношению к большей части выборки» (WN Venables и BD Ripley. 2002. Современная прикладная статистика с S. New York: Springer, p.119).

Важно отметить, что неожиданность находится в сознании наблюдателя и зависит от какой-то неявной или явной модели данных. Может существовать другая модель, при которой выброс не удивителен, например, если данные действительно являются логнормальными или гамма, а не нормальными.

PS Я не думаю, что в точках кредитного плеча обязательно отсутствуют соседние наблюдения. Например, они могут встречаться парами.

Ник Кокс
источник
Благодарность! Являются ли выбросы и точки с высоким левереджем одной и той же концепцией? Обратите внимание, что «Кредитное плечо обычно определяется как диагональ шляпной матрицы» из en.wikipedia.org/wiki/Partial_leverage
Тим
1
Нет; Вы не показали нам определение «выброса», но из определения точек воздействия следует, что они не должны быть выбросами sensu Venables и Ripley. (Я рекомендую попытаться отучить себя от Википедии.) Смотрите также ответ @ Gael.
Ник Кокс
1
«Важно отметить, что неожиданность находится в сознании наблюдателя и зависит от некоторой молчаливой или явной модели данных. Может существовать другая модель, при которой выброс вообще не удивителен, скажем, если данные действительно логнормальные или гамма, а не обычный." Таким образом, выбросы определяются по какой-то модели, в то время как точки с высоким левереджем и влиятельные точки - нет?
Тим
1
Венейблс и Рипли, как я читал, делали умную мысль остроумным образом и подрывали наивную идею, что выбросы могут быть определены точными, формальными утверждениями. Но другие методы лечения можно найти в разных стилях. Напротив, рычаг и влияние могут быть определены формально с точки зрения способов их измерения. Два стиля использования терминологии не совсем совместимы. Чтобы лучше понять, что такое выбросы, а что нет, опыт анализа фактических данных учит не только чтению записей энциклопедии.
Ник Кокс
Гаэль сослался на комментарий 29 июля 2013 года, теперь использует идентификатор @Gala. На момент написания статьи есть только один ответ, но он может измениться.
Ник Кокс
20

Легко показать, как высокая точка кредитного плеча может не влиять на простую линейную модель:

Высокое кредитное плечо, но не слишком влиятельная точка

Синяя линия - это линия регрессии, основанная на всех данных, красная линия игнорирует точку в правом верхнем углу графика.

Эта точка соответствует определению точки высокого плеча, которую вы только что предоставили, так как она далеко от остальных данных. Из-за этого линия регрессии (синяя) должна проходить рядом с ней. Но поскольку его положение в значительной степени соответствует шаблону, наблюдаемому в остальных данных, другая модель могла бы предсказать его очень хорошо (т. Е. Красная линия уже проходит близко к нему в любом случае), и поэтому она не имеет особого влияния.

Сравните это со следующей диаграммой рассеяния:

Высокий левередж, очень влиятельная точка

Здесь точка справа от графика все еще остается точкой высокого плеча, но на этот раз она не совсем соответствует схеме, наблюдаемой в остальных данных. Синяя линия (линейное соответствие, основанное на всех данных) проходит очень близко, а красная линия - нет. Включение или исключение этой единственной точки значительно меняет оценки параметров: это оказывает большое влияние.

Обратите внимание, что приведенные вами определения и примеры, которые я только что привел, могут показаться, что высокие рычаги / влиятельные точки в некотором смысле являются одномерными «выбросами» и что подобранная линия регрессии пройдет близко к точкам с наибольшим влиянием, но это необходимо не будь так.

Скрытая очень влиятельная точка

В этом последнем примере наблюдение в правом нижнем углу оказывает (относительно) большое влияние на подгонку модели (снова видно по разнице между красной и синей линиями), но оно все еще кажется далеко от линии регрессии. будучи необнаружимым в одномерных распределениях (представленных здесь «ковриками» вдоль осей).

гала
источник
Благодарность! Соответствует ли точка высокого плеча, которую мы здесь использовали, «плечо обычно определяется как диагональ шляпной матрицы» из en.wikipedia.org/wiki/Partial_leverage ?
Тим
Отличное объяснение. Буду очень признателен, если вы также предоставите данные для всех трех случаев. Спасибо
MYaseen208