Мое описание расстояния Махаланобиса в нижней части вверху объяснение расстояния Махаланобиса? включает в себя два ключевых результата:
По определению, оно не меняется, когда регрессоры равномерно смещены.
Квадратное расстояние Махаланобиса между векторами и определяется как где - ковариация данных.xyD2(x,y)=(x−y)′Σ−1(x−y)
Σ
(1) позволяет предположить, что все средства регрессоров равны нулю. Осталось вычислить . Однако, чтобы утверждение было верным, нам нужно добавить еще одно предположение:hi
Модель должна включать в себя перехват.
Учитывая это, пусть будет регрессоров и данных, записывающих значение регрессора для наблюдения как . Пусть вектор столбцов этих значений для регрессора будет записан а вектор строки этих значений для наблюдения будет записан . Тогда матричная модель являетсяk≥0njixijnjx,jkixi
X=⎛⎝⎜⎜⎜⎜11⋮1x11x21⋮xn1⋯⋯⋮⋯x1kx2k⋮xnk⎞⎠⎟⎟⎟⎟
и, по определению, матрица шляпы
H=X(X′X)−1X′,
откуда запись по диагоналиi
hi=hii=(1;xi)(X′X)−1(1;xi)′.(1)
Для этого нет ничего, кроме как отработать эту обратную центральную матрицу - но благодаря первому ключевому результату это легко, особенно когда мы пишем ее в блочно-матричной форме:
X′X=n(100′C)
где и0=(0,0,…,0)′
Cjk=1n∑i=1nxijxik=n−1nCov(xj,xk)=n−1nΣjk.
(Я написал для выборочной ковариационной матрицы регрессоров.) Поскольку это диагональ блока, ее обратное можно найти, просто инвертировав блоки:Σ
(X′X)−1=1n(100′C−1)=(1n00′1n−1Σ−1).
Из определения получаем(1)
hi=(1;xi)(1n00′1n−1Σ−1)(1;xi)′=1n+1n−1xiΣ−1x′i=1n+1n−1D2(xi,0).
Решение для квадрата длины Махаланобиса даетD2i=D2(xi,0)
D2i=(n−1)(hi−1n),
КЕД .
Оглядываясь назад, можно проследить аддитивный член в присутствии перехвата, который ввел столбец единиц в модель матрицы . Мультипликативный член появился после того, как предполагалось, что расстояние Махаланобиса будет вычислено с использованием выборочной ковариационной оценки (которая делит суммы квадратов и произведений на ), а не ковариационной матрицы данных (которая делит сумму квадратов и продукты по ).1/nXn−1n - 1 nn−1n
Главная ценность этого анализа заключается в том, чтобы придать левереджу геометрическую интерпретацию, которая измеряет, насколько единичное изменение в ответе при наблюдении изменит подходящее значение при этом наблюдении: наблюдения с высоким левериджем находятся на больших расстояниях Махаланобиса от центроида из регрессоров, точно так же, как механически эффективный рычаг работает на большом расстоянии от своей точки опоры.i
R код, чтобы показать, что отношение действительно имеет место:
x <- mtcars
# Compute Mahalanobis distances
h <- hat(x, intercept = TRUE); names(h) <- rownames(mtcars)
M <- mahalanobis(x, colMeans(x), cov(x))
# Compute D^2 of the question
n <- nrow(x); D2 <- (n-1)*(h - 1/n)
# Compare.
all.equal(M, D2) # TRUE
print(signif(cbind(M, D2), 3))