В тестировании , какова основа для использования квадратного корня из ожидаемых значений как стандартных отклонений (то есть ожидаемых значений как дисперсий) каждого из нормальных распределений? Единственное, что я мог найти, обсуждая это вообще, это http://www.physics.csbsju.edu/stats/chi-square.html , и в нем просто упоминаются распределения Пуассона.
В качестве простой иллюстрации моей путаницы: что если бы мы тестировали, существенно ли отличаются два процесса: один генерирует 500 As и 500 Bs с очень малой дисперсией, а другой генерирует 550 As и 450 Bs с очень маленькой дисперсией (редко генерируя 551 как и 449 Bs)? Разве разница здесь не является просто ожидаемой величиной?
(Я не статистика, поэтому действительно ищу ответ, доступный для неспециалиста.)
Ответы:
Общая форма для многих тестовых статистик
В случае нормальной переменной стандартная ошибка основывается либо на известной дисперсии населения (z-stats), либо на оценке из выборки (t-stats). При использовании биномиальной переменной стандартная ошибка основана на пропорции (гипотетическая пропорция для тестов).
В таблице сопряженности можно считать, что число в каждой ячейке исходит из распределения Пуассона со средним значением, равным ожидаемому значению (ниже нуля). Дисперсия для распределения Пуассона равна среднему значению, поэтому мы используем ожидаемое значение и для расчета стандартной ошибки. Я видел статистику , которая использует наблюдаемое вместо этого, но он имеет менее теоретическое обоснование и не сходится, а кχ2 распределения.
источник
Давайте рассмотрим простейший случай, чтобы попытаться обеспечить наибольшую интуицию. Пусть - выборка iid из дискретного распределения с k исходами. Пусть π 1 , … , π k - вероятности каждого конкретного результата. Нас интересует (асимптотическое) распределение хи-квадрат статистики X 2 = k ∑ i = 1 ( S i - n π i ) 2X1,X2,…,Xn k π1,…,πk
Здесь n π i - ожидаемое количество отсчетов i- го результата.
Наводящий эвристический
Определить , так чтоX2=∑iU 2 i =‖U‖ 2 2, гдеU=(U1,…,Uk).Ui=(Si−nπi)/nπi−−−√ X2=∑iU2i=∥U∥22 U=(U1,…,Uk)
Так как это Б я л ( п , π я ) , то в силу центральной предельной теоремы , Т я = U ISi Bin(n,πi)
Следовательно, мы также имеемчто, U я d → N ( 0 , 1 - π я ) .
Теперь, если был (асимптотический) независимо (что они не являются), то мы можем утверждать , что Σ я T 2 я был асимптотический χ 2 к распределен. Но обратите внимание, что T k является детерминированной функцией ( T 1 , … , T k - 1 ), и поэтому переменные T i не могут быть независимыми.Ti ∑iT2i χ2k Tk (T1,…,Tk−1) Ti
Следовательно, мы должны как-то учитывать ковариацию между ними. Оказывается, что «правильный» способ сделать это - использовать вместо этого , и ковариация между компонентами U также изменяет асимптотическое распределение с того, что мы могли бы считать χ 2 k, до того, что фактически является а х 2 к - 1 .Ui U χ2k χ2k−1
Некоторые подробности об этом следуют.
Более строгое лечение
Нетрудно проверить, что на самом делеCov(Ui,Uj)=−πiπj−−−−√ for i≠j .
So, the covariance ofU is
Now, by the Multivariate Central Limit Theorem, the vectorU has
an asymptotic multivariate normal distribution with mean 0 and
covariance A .
So,U has the same asymptotic distribution as AZ , hence, the same asymptotic distribution of
X2=UTU is the same as the distribution of ZTATAZ=ZTAZ by the continuous mapping theorem.
But,A is symmetric and idempotent, so (a) it has orthogonal
eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c)
the multiplicity of the eigenvalue of 1 is rank(A) . This means that A can be decomposed as A=QDQT where Q is orthogonal and D is a diagonal matrix with rank(A) ones on the diagonal and the remaining diagonal entries being zero.
Thus,ZTAZ must be χ2k−1 distributed since
A has rank k−1 in our case.
Other connections
The chi-square statistic is also closely related to likelihood ratio statistics. Indeed, it is a Rao score statistic and can be viewed as a Taylor-series approximation of the likelihood ratio statistic.
References
This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are
источник