У меня был вопрос о том, как интерпретировать графики, созданные с помощью plot (lm) в R. Мне было интересно, можете ли вы, ребята, сказать мне, как интерпретировать графики масштаба-местоположения и левереджа? Любые замечания будут оценены. Предположим, базовые знания статистики, регрессии и эконометрики.
89
Ответы:
Как указано в документации ,
plot.lm()
можно вернуть 6 разных участков:Графики [1] , [2] , [3] и [5] возвращаются по умолчанию. Интерпретация [1] обсуждается на CV здесь: Интерпретация остатков в сравнении с подогнанным графиком для проверки предположений линейной модели . Я объяснил предположение о гомоскедастичности и графики, которые могут помочь вам оценить ее (включая графики расположения шкалы [2] ) на CV здесь: Что означает наличие постоянной дисперсии в модели линейной регрессии? Я обсуждал qq-plots [3] на CV здесь: график QQ не совпадает с гистограммой, а здесь: графики PP-графики против QQ-графиков . Здесь также есть очень хороший обзор: Как интерпретировать QQ-сюжет? Итак, в первую очередь мы просто понимаем [5] , график остаточного левереджа.
Чтобы понять это, нам нужно понять три вещи:
Чтобы понять левередж , поймите , что регрессия Обыкновенных наименьших квадратов соответствует линии, которая пройдет через центр ваших данных . Линия может иметь небольшой или крутой наклон, но она будет вращаться вокруг этой точки, как рычаг на опоре . Мы можем принять эту аналогию буквально: поскольку OLS стремится минимизировать вертикальные расстояния между данными и линией *, точки данных, которые находятся дальше к крайним значениям будут толкать / тянуть рычаг сильнее (т. Е. Линию регрессии). ); у них больше рычагов . Одним из результатов этого может( X¯, Y ¯) Икс будь то, что результаты, которые вы получаете, определяются несколькими точками данных; это то, что этот сюжет призван помочь вам определить.
Еще один результат того факта, что точки, расположенные дальше по имеют больше рычагов, заключается в том, что они имеют тенденцию быть ближе к линии регрессии (или, точнее: линия регрессии расположена так, чтобы быть ближе к ним ), чем точки, находящиеся рядом с . Другими словами, остаточное стандартное отклонение может отличаться в разных точках на (даже если ошибка стандартного отклонения постоянна). Чтобы исправить это, остатки часто стандартизируют так, чтобы они имели постоянную дисперсию (конечно, при условии, что основной процесс генерации данных является гомоскедастическим).Икс Икс¯ Икс
Один из способов понять, были ли результаты, которых вы достигли с помощью определенной точки данных, состоит в том, чтобы рассчитать, насколько далеко будут двигаться прогнозируемые значения для ваших данных, если ваша модель будет соответствовать без рассматриваемой точки данных. Это рассчитанное общее расстояние называется расстоянием Кука . К счастью, вам не нужно повторно запускать регрессионную модель раз, чтобы выяснить, насколько далеко будут двигаться прогнозируемые значения, D Кука является функцией плеча и стандартизированного остатка, связанного с каждой точкой данных.N
Имея в виду эти факты, рассмотрим графики, связанные с четырьмя различными ситуациями:
Графики слева показывают данные, центр данных с синей точкой, базовый процесс генерации данных с пунктирной серой линией, модель соответствует синей линии, и особая точка с красной точкой. Справа - соответствующие участки остаточного левереджа; Особый момент есть . Модель сильно искажена в первую очередь в четвертом случае, когда есть точка с высоким левереджем и большим (отрицательным) стандартизированным остатком. Для справки, вот значения, связанные с особыми точками:( X¯, Y ¯)
21
Ниже приведен код, который я использовал для создания этих графиков:
* Чтобы понять, как регрессия OLS стремится найти линию, которая минимизирует вертикальные расстояния между данными и линией, см. Мой ответ здесь: Какая разница между линейной регрессией по y с x и x с y?
источник