Я экспериментировал с отношением между ошибками и невязками, используя несколько простых симуляций в R. Одна вещь, которую я обнаружил, заключается в том, что независимо от размера выборки или дисперсии ошибок, я всегда получаю ровно для наклона, когда вы подходите к модели
Вот симуляция, которую я делал:
n <- 10
s <- 2.7
x <- rnorm(n)
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e
model <- lm(y ~ x)
r <- model$res
summary( lm(e ~ r) )
e
и r
имеют высокую (но не идеальную) корреляцию даже для небольших выборок, но я не могу понять, почему это происходит автоматически. Математическое или геометрическое объяснение приветствуется.
regression
least-squares
residuals
GoF_Logistic
источник
источник
lm(y~r)
,lm(e~r)
иlm(r~r)
, которые , следовательно , должны быть все равны. Последний, очевидно, равен . Попробуйте все три из этих команд, чтобы увидеть. Чтобы последний работал, вам нужно создать копию , например . Подробнее о геометрических диаграммах регрессии см. Stats.stackexchange.com/a/113207 .R
r
s<-r;lm(r~s)
Ответы:
Уубер ответит отлично! (+1) Я решил эту проблему, используя наиболее знакомую мне нотацию, и подумал, что (менее интересный, более рутинный) вывод стоит включить сюда.
Пусть - модель регрессии, для X ∈ R n × p и ϵ шум. Тогда регрессия у против столбцов X имеет нормальные уравнения Х Т ( Y - X β ) = 0 , дающие оценки β = ( Х Т Х ) - 1 х Т у .Y= Хβ*+ ϵ Икс∈ Rn × p ε Y Икс ИксT( у- Хβ^) =0,
Регрессия на r приводит к оценочному наклону, определяемому как ( r T r ) - 1 r T ϵε р
такя-Нсимметрична и идемпотентная иepsi∉ям(X)почти наверное.
Кроме того, этот аргумент также сохраняется, если мы включаем перехват, когда мы выполняем регрессию ошибок для остатков, если перехват был включен в исходную регрессию, поскольку ковариаты ортогональны (т.е. из нормальных уравнений) ,1Tг = 0
источник
источник