Доказать связь между расстоянием Махаланобиса и кредитным плечом?

12

Я видел формулы в Википедии. которые касаются расстояния Махаланобиса и плеча:

Расстояние Махаланобиса тесно связано со статистикой кредитного плеча , но имеет другой масштаб: D ^ 2 = (N - 1) (h - \ tfrac {1} {N}).h

D2=(N1)(h1N).

В связанной статье Википедия описывает h в следующих терминах:

В модели линейной регрессии, оценка рычагов для ith блока данных определяются как:

hii=(H)ii,
ith диагонального элемента шлема матрица H=X(XX)1X , где обозначает транспонирование матрицы.

Я не могу найти доказательств нигде. Я пытался начать с определений, но я не могу добиться прогресса. Кто-нибудь может дать намек?

dave2d
источник

Ответы:

11

Мое описание расстояния Махаланобиса в нижней части вверху объяснение расстояния Махаланобиса? включает в себя два ключевых результата:

  1. По определению, оно не меняется, когда регрессоры равномерно смещены.

  2. Квадратное расстояние Махаланобиса между векторами и определяется как где - ковариация данных.xy

    D2(x,y)=(xy)Σ1(xy)
    Σ

(1) позволяет предположить, что все средства регрессоров равны нулю. Осталось вычислить . Однако, чтобы утверждение было верным, нам нужно добавить еще одно предположение:hi

Модель должна включать в себя перехват.

Учитывая это, пусть будет регрессоров и данных, записывающих значение регрессора для наблюдения как . Пусть вектор столбцов этих значений для регрессора будет записан а вектор строки этих значений для наблюдения будет записан . Тогда матричная модель являетсяk0njixijnjx,jkixi

X=(1x11x1k1x21x2k1xn1xnk)

и, по определению, матрица шляпы

H=X(XX)1X,

откуда запись по диагоналиi

(1)hi=hii=(1;xi)(XX)1(1;xi).

Для этого нет ничего, кроме как отработать эту обратную центральную матрицу - но благодаря первому ключевому результату это легко, особенно когда мы пишем ее в блочно-матричной форме:

XX=n(100C)

где и0=(0,0,,0)

Cjk=1ni=1nxijxik=n1nCov(xj,xk)=n1nΣjk.

(Я написал для выборочной ковариационной матрицы регрессоров.) Поскольку это диагональ блока, ее обратное можно найти, просто инвертировав блоки:Σ

(XX)1=1n(100C1)=(1n001n1Σ1).

Из определения получаем(1)

hi=(1;xi)(1n001n1Σ1)(1;xi)=1n+1n1xiΣ1xi=1n+1n1D2(xi,0).

Решение для квадрата длины Махаланобиса даетDi2=D2(xi,0)

Di2=(n1)(hi1n),

КЕД .

Оглядываясь назад, можно проследить аддитивный член в присутствии перехвата, который ввел столбец единиц в модель матрицы . Мультипликативный член появился после того, как предполагалось, что расстояние Махаланобиса будет вычислено с использованием выборочной ковариационной оценки (которая делит суммы квадратов и произведений на ), а не ковариационной матрицы данных (которая делит сумму квадратов и продукты по ).1/nXn1n - 1 nn1n


Главная ценность этого анализа заключается в том, чтобы придать левереджу геометрическую интерпретацию, которая измеряет, насколько единичное изменение в ответе при наблюдении изменит подходящее значение при этом наблюдении: наблюдения с высоким левериджем находятся на больших расстояниях Махаланобиса от центроида из регрессоров, точно так же, как механически эффективный рычаг работает на большом расстоянии от своей точки опоры.i


R код, чтобы показать, что отношение действительно имеет место:

x <- mtcars

# Compute Mahalanobis distances
h <- hat(x, intercept = TRUE); names(h) <- rownames(mtcars)
M <- mahalanobis(x, colMeans(x), cov(x))

# Compute D^2 of the question
n <- nrow(x); D2 <- (n-1)*(h - 1/n)

# Compare.
all.equal(M, D2)               # TRUE
print(signif(cbind(M, D2), 3))
Whuber
источник
Отличный ответ, очень хорошо округленный с строгостью и интуицией. Ура!
cgrudz
Спасибо за сообщение @whuber! Для проверки работоспособности, вот код R, чтобы показать, что отношение действительно выполняется: x <- mtcars rownames (x) <- NULL colnames (x) <- NULL n <- nrow (x) h <- hat (x, T) mahalanobis (x, colMeans (x), cov (x)) (n-1) * (h - 1 / n) all.equal (махаланобис (x, colMeans (x), cov (x)), (n-1 ) * (ч - 1 / н))
Тал Галили
1
@ Я не думал, что мне нужна проверка работоспособности, но спасибо за код. :-) Я внес изменения, чтобы прояснить это и его вывод немного.
whuber
1
@whuber, я хотел пример, который показывает, как сделать равенство работающим (давая понять, что я правильно понял предположения). Я также расширил соответствующую запись в вики: en.wikipedia.org/wiki/… (не стесняйтесь и тратить на это там, как считаете нужным :))
Tal