Почему в тесте хи-квадрат в качестве дисперсии используется ожидаемое число?

18

В тестировании , какова основа для использования квадратного корня из ожидаемых значений как стандартных отклонений (то есть ожидаемых значений как дисперсий) каждого из нормальных распределений? Единственное, что я мог найти, обсуждая это вообще, это http://www.physics.csbsju.edu/stats/chi-square.html , и в нем просто упоминаются распределения Пуассона.χ2

В качестве простой иллюстрации моей путаницы: что если бы мы тестировали, существенно ли отличаются два процесса: один генерирует 500 As и 500 Bs с очень малой дисперсией, а другой генерирует 550 As и 450 Bs с очень маленькой дисперсией (редко генерируя 551 как и 449 Bs)? Разве разница здесь не является просто ожидаемой величиной?

(Я не статистика, поэтому действительно ищу ответ, доступный для неспециалиста.)

Ян
источник
Это, вероятно, связано с тем, что дисперсия случайной величины χk2 равна 2k а также с тем фактом, что статистику необходимо умножить на 2, чтобы получить правильное распределение (как в тесте отношения правдоподобия). Возможно, кто-то знает об этом более формально.
Макрос

Ответы:

16

Общая форма для многих тестовых статистик

observedexpectedstandarderror

В случае нормальной переменной стандартная ошибка основывается либо на известной дисперсии населения (z-stats), либо на оценке из выборки (t-stats). При использовании биномиальной переменной стандартная ошибка основана на пропорции (гипотетическая пропорция для тестов).

В таблице сопряженности можно считать, что число в каждой ячейке исходит из распределения Пуассона со средним значением, равным ожидаемому значению (ниже нуля). Дисперсия для распределения Пуассона равна среднему значению, поэтому мы используем ожидаемое значение и для расчета стандартной ошибки. Я видел статистику , которая использует наблюдаемое вместо этого, но он имеет менее теоретическое обоснование и не сходится, а к χ2 распределения.

Грег Сноу
источник
1
Я застреваю в связи с Пуассоном / пониманием, почему каждая клетка может рассматриваться как происходящая от Пуассона. Я знаю среднее значение / дисперсию Пуассона, и я знаю, что они представляют количество событий с указанным уровнем. Я также знаю, что распределения хи-квадрат представляют собой сумму квадратов стандартных (дисперсия 1) нормалей. Я просто пытаюсь обернуть голову вокруг обоснования повторного использования ожидаемого значения в качестве предположения о «разбросе» каждой из нормалей. Это просто для того, чтобы все соответствовало распределению хи-квадрат / "стандартизировал" нормали?
Ян
3
Есть пара вопросов, распределение Пуассона является общим для подсчетов, когда вещи довольно независимы. Вместо того, чтобы думать о таблице как о фиксированной сумме, и вы распределяете значения между ячейками таблицы, подумайте только об одной ячейке таблицы, и вы ждете фиксированное количество времени, чтобы увидеть, сколько ответов попадет в эту ячейку. Это соответствует общей идее Пуассона. Для больших средних вы можете аппроксимировать Пуассона с нормальным распределением, поэтому тестовая статистика имеет смысл как нормальное приближение к Пуассону, а затем преобразовать в . χ2
Грег Сноу
1
(+1) Предположим, что числа клеток были независимыми пуассоновскими случайными величинами со средним значением n π i . Тогда, конечно, Σ K я = 1 ( X я - п л I ) 2Xi,,Xknπi по распределению. Но проблема в том, чтоnявляетсяпараметром,а не фактическим наблюдаемым количеством. Суммарные наблюдаемые значения составляютN= k i = 1 XiPoi(n). ХотяSLLN почти навернякаN/n1,еще предстоит проделать дополнительную работу, чтобы превратить эвристику в нечто работоспособное. i=1k(Xinπi)2nπiχk2nN=i=1kXiPoi(n)N/n1
кардинал
В качестве простой иллюстрации моей путаницы: что если бы мы тестировали, существенно ли отличаются два процесса: один генерирует 500 As и 500 Bs с очень малой дисперсией, а другой генерирует 550 As и 450 Bs с очень малой дисперсией (редко генерируя 551 как и 449 Bs)? Разве разница здесь не является просто ожидаемой величиной?
Ян
1
@ Ян: Похоже, ваши данные, которые вы не описали, не соответствуют модели, лежащей в основе статистики хи-квадрат. Стандартная модель является одной из полиномиальной выборки . Строго говоря, даже не (безусловная) выборка Пуассона покрыта, что и предполагает ответ Грега. Я делаю (возможно, тупую) ссылку на это в моем предыдущем комментарии.
кардинал
17

Давайте рассмотрим простейший случай, чтобы попытаться обеспечить наибольшую интуицию. Пусть - выборка iid из дискретного распределения с k исходами. Пусть π 1 , , π k - вероятности каждого конкретного результата. Нас интересует (асимптотическое) распределение хи-квадрат статистики X 2 = k i = 1 ( S i - n π i ) 2X1,X2,,Xnkπ1,,πk Здесь n π i - ожидаемое количество отсчетов i- го результата.

X2=i=1k(Sinπi)2nπi.
nπii

Наводящий эвристический

Определить , так чтоX2=iU 2 i =U 2 2, гдеU=(U1,,Uk).Ui=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

Так как это Б я л ( п , π я ) , то в силу центральной предельной теоремы , Т я = U ISiBin(n,πi) Следовательно, мы также имеемчто, U я d N ( 0 , 1 - π я ) .

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
UidN(0,1πi)

Теперь, если был (асимптотический) независимо (что они не являются), то мы можем утверждать , что Σ я T 2 я был асимптотический χ 2 к распределен. Но обратите внимание, что T k является детерминированной функцией ( T 1 , , T k - 1 ), и поэтому переменные T i не могут быть независимыми.TiiTi2χk2Tk(T1,,Tk1)Ti

Следовательно, мы должны как-то учитывать ковариацию между ними. Оказывается, что «правильный» способ сделать это - использовать вместо этого , и ковариация между компонентами U также изменяет асимптотическое распределение с того, что мы могли бы считать χ 2 k, до того, что фактически является а х 2 к - 1 .UiUχk2χk12

Некоторые подробности об этом следуют.

Более строгое лечение

Нетрудно проверить, что на самом деле Cov(Ui,Uj)=πiπj for ij.

So, the covariance of U is

A=IππT,
where π=(π1,,πk). Note that A is symmetric and idempotent, i.e., A=A2=AT. So, in particular, if Z=(Z1,,Zk) has iid standard normal components, then AZN(0,A). (NB The multivariate normal distribution in this case is degenerate.)

Now, by the Multivariate Central Limit Theorem, the vector U has an asymptotic multivariate normal distribution with mean 0 and covariance A.

So, U has the same asymptotic distribution as AZ, hence, the same asymptotic distribution of X2=UTU is the same as the distribution of ZTATAZ=ZTAZ by the continuous mapping theorem.

But, A is symmetric and idempotent, so (a) it has orthogonal eigenvectors, (b) all of its eigenvalues are 0 or 1, and (c) the multiplicity of the eigenvalue of 1 is rank(A). This means that A can be decomposed as A=QDQT where Q is orthogonal and D is a diagonal matrix with rank(A) ones on the diagonal and the remaining diagonal entries being zero.

Thus, ZTAZ must be χk12 distributed since A has rank k1 in our case.

Other connections

The chi-square statistic is also closely related to likelihood ratio statistics. Indeed, it is a Rao score statistic and can be viewed as a Taylor-series approximation of the likelihood ratio statistic.

References

This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are

  1. G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
  2. E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
  3. D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.
cardinal
источник
(+1) I think it is hard to find this proof in standard categorical data analysis texts like Agresti, A. (2002). Categorical Data Analysis. John-Wiley.
suncoolsu
Thanks for the comment. I know there is some treatment of the chi-squared statistic in Agresti, but don't recall how far he takes it. He may just appeal to the asymptotic equivalence with the likelihood ratio statistic.
cardinal
Я не знаю, найдете ли вы доказательство выше в каком-либо тексте. Я не видел использования полной (вырожденной) ковариационной матрицы и ее свойств в другом месте. Обычное лечение рассматривает (невырожденное) распределение первогоК-1 coordinates and then uses the inverse covariance matrix (which has a nice form, but one which is not immediately obvious) and some (somewhat) tedious algebra to establish the result.
cardinal
Your answer begins by defining a set of X's but then defines the statistic in terms of S's. Can you include something in the answer that indicates how the variables you define at the start and the variables in the statistic are related?
Glen_b -Reinstate Monica