Распределение наблюдательного уровня по расстоянию Махаланобиса

Если у меня есть многовариантный нормальный пример iid , и я определяю (что-то вроде расстояния Махаланобиса [в квадрате] от точки выборки до вектора с использованием матрицы для взвешивания), каково распределение (расстояние Махаланобиса до среднее значение с использованием выборочной ковариационной матрицы )? $X_1, \ldots, X_n \sim N_p(\mu,\Sigma)$

d_{i}^{2} (б, A) знак равно ({Икс}_{я} - б)^{'} A^{- 1} ({Икс}_{я} - б)

$d_i^2(b,A) = (X_i - b)' A^{-1} (X_i - b)$

a

$a$

A

$A$

d_{i}^{2} (\bar{X}, S)

$d_i^2(\bar X,S)$

\bar{X}

$\bar X$

S

$S$

Я смотрю на статью, в которой утверждается, что это , но это, очевидно, неправильно: было бы получено для с использованием (неизвестного) среднего вектора совокупности и ковариационная матрица. Когда образцы аналогов подключены, нужно получить распределение Hotelling , или масштабированное распределение , или что-то в этом роде, но не . Я не смог найти точный результат ни в Muirhead (2005) , ни в Anderson (2003) , ни в Mardia, Kent и Bibby (1979, 2003). $\chi^2_p$ $\chi^2_p$ $d_i^2(\mu,\Sigma)$ $T^{\ 2}$ $F(\cdot)$ $\chi^2_p$ , По-видимому, эти парни не беспокоились о посторонней диагностике, так как многовариантное нормальное распределение является идеальным и легко получается каждый раз, когда кто-то собирает многомерные данные: - /.

Все может быть сложнее, чем это. Результат распределения Хотеллинга основан на допущении независимости между векторной и матричной частями; такая независимость не имеет для и , но это уже не имеет для и . $T^{\ 2}$ $\bar X$ $S$ $X_i$ $S$

multivariate-analysis outliers Stask
источник

В определении вы все еще рассматриваете как случайную переменную или вы теперь рассматриваете его как фиксированный вектор? Включение нижнего индекса предполагает последнее, но это кажется немного странным.

d_{i}^{2}

$d_i^2$

X_{i}

$X_i$

whuber

Просто небольшое примечание, но обратите внимание, что является вспомогательным по отношению к и равно фиксированной константе ( должно быть или подобное, я думаю) почти наверняка.

X_{i} - \bar{X}

$X_i - \bar{X}$

μ

$\mu$

\sum_{i} d_{i}^{2} (\bar{X}, S)

$\sum_i d_i^2(\bar{X},S)$

n - p

$n-p$

кардинал

@whuber - возможно, чтобы подчеркнуть, что он рассчитывается с использованием наблюдения из выборки, а не нового наблюдения?

jbowman

@whuber, примерно в соответствии с тем, что сказал jbowman - чтобы указать, что это статистика уровня наблюдения (в отличие от статистики уровня выборки, например среднего значения выборки).

StasK

Распределение является бета, , но я все еще ищу распределение . Распределения не являются независимыми.

d_{i}^{2} (\bar{X}, S)

$d_i^2(\bar X,S)$

n / (n - 1)^{2} d_{i}^{2} (\bar{X}, S) \sim B (p / 2, (n - p - 1) / 2)

$n/(n-1)^2 d_i^2(\bar X,S) \sim B(p/2, (n-p-1)/2)$

d_{i}^{2} (μ, S)

$d^2_i(\mu, S)$

d_{i}^{2}

$d^2_i$

Ответы:

Проверьте гауссово моделирование смеси, используя расстояние Махаланобиса ( альтернативная ссылка ). Смотрите страницу № 13, Второй столбец. Авторы также дали некоторые доказательства также для получения распределения. Дистрибутив масштабируется бета. Пожалуйста, дайте мне знать, если это не работает для вас. В противном случае я мог бы проверить любой намек в книге С.С. Вилкса завтра.

vinux
источник

Ответ, приведенный в статье:

. Благодарность!

\frac{n}{(n - 1)^{2}} d_{i}^{2} (\bar{X}, S) \sim B (\frac{p}{2}, \frac{n - p - 1}{2})

$\frac{n}{(n-1)^2} d_i^2(\bar X, S) \sim B(\frac{p}{2}, \frac{n-p-1}{2} )$

StasK

Есть 3 соответствующих дистрибутива. Как уже отмечалось, если используются истинные параметры популяции, распределение распределяется по хи-квадрат с . Это также асимптотическое распределение с оценочными параметрами и большим размером выборки. $df=p$

\frac{N (d^{2})}{(N - 1)^{2}} ~ В е T a (\frac{п}{2}, \frac{(N - п - 1)}{2}),

$\frac{n(d^2)}{(n-1)^2} \sim Beta\left(\frac{p}{2}, \frac{(n-p-1)}{2}\right).$

x_{i}

$x_i$

(\frac{N d^{2} (N - п)}{(п (N - 1) (N + 1)}) ~ F (п, N - п)

$\left(\frac{nd^2(n-p)}{(p(n-1)(n+1)}\right) \sim F(p, n-p)$

Джо Салливан
источник

L A T E X

$\LaTeX$

Можете ли вы дать ссылку на формулу F?

eyaler

одна связанная ссылка, раздел 3 в Hardin, Johanna и David M. Rocke. 2005. «Распределение робастных расстояний». Журнал вычислительной и графической статистики 14 (4): 928–46. DOI: 10.1198 / 106186005X77685.

Иосиф