Странный способ вычисления хи-квадрат в Excel против R

9

Я смотрю на лист Excel, в котором утверждается, что он вычисляет , но я не знаю, как это сделать, и мне было интересно, если я что-то упустил.χ2

Вот данные, которые он анализирует:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

И вот суммы, которые он делает для каждой группы, чтобы вычислить квадрат хи:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

Таким образом, для каждой группы :χ2

2.822793
2.822793
1.759359
4.136448

А общая хи - квадрат: 11.54139.

Однако каждый пример вычисления который я видел, полностью отличается от этого. Я бы сделал для каждой группы:χ2

chiSq = (Observed-Expected)^2 / Expected

И поэтому для приведенного выше примера я бы получил общее значение хи-квадрат 11.3538.

Мой вопрос - почему в листе Excel они вычисляют таким образом? Это признанный подход?χ2

ОБНОВИТЬ

Моя причина желания знать это состоит в том, что я пытаюсь воспроизвести эти результаты на языке R. Я использую функцию chisq.test, и она не выходит с тем же номером, что и лист Excel. Так что, если кто-нибудь знает, как сделать этот подход в R, это было бы очень полезно!

ОБНОВЛЕНИЕ 2

Если кому-то интересно, вот как я рассчитал это в R:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)
user1578653
источник
Подход в вашем втором обновлении должен дать правильную статистику. Однако, если ваши ожидания не основаны на сумме наблюдаемого, у вас может возникнуть проблема, потому что значение p там обусловлено этим. Тем не менее, я замечаю, что ожидаемое и наблюдаемое имеют одинаковую общую сумму (маловероятно, что это произойдет случайно), так что, вероятно, все в порядке. Вы могли бы сделать это более легко следующим образом:x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Glen_b
@Glen_b В листе Excel я полагаю, что ожидания рассчитываются с помощью параметра «Общая численность населения» * «P», который я определил выше. Это будет проблемой? Кроме того, общая численность населения варьируется - в большинстве случаев это 2000, но на самом деле это может быть любое число. Лист Excel, который я пытаюсь воссоздать здесь, на самом деле не учитывает значение p, поэтому, если это не повлияет на статистику, возможно, это не проблема ...
user1578653
Вопрос сводится к тому, откуда взялись р. Они включают в себя просмотр общего наблюдаемого количества?
Glen_b
Ну, для меня это выглядит как Ps, и, следовательно, ожидаемое основано как на общем наблюдаемом количестве, так и на общей совокупности ... Однако во всех приведенных мной примерах в таблице Excel ожидаемое значение также, похоже, соответствует общее количество наблюдений / количество отсчетов.
user1578653
Если р таким образом основаны на счетах, то, конечно, ожидаемые результаты. Если это так, похоже, что степени свободы и т. Д. В порядке, как вы это сделали в R - но несколько слов моего объяснения, возможно, придется изменить.
Glen_b

Ответы:

13

Это оказывается довольно простым.

Это явно биноминальная выборка. Есть два способа посмотреть на это.

Икся~мусорное ведро(Nя,пя)N(μязнак равноNяпя,σя2знак равноNяпя(1-пя))Zязнак равно(Икся-μя)/σяZΣяZя2~χ2

Z

(О-Е)2/Е

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

ЕNя(1-пя)

(О-Е)2/Е

1/п+1/(1-п)знак равно1/п(1-п)Tчас

(Икся-μя)2σя2знак равно(Икся-Nяпя)2Nяпя(1-пя)знак равно(Икся-Nяпя)2Nяпя+(Икся-Nяпя)2Nя(1-пя)знак равно(Икся-Nяпя)2Nяпя+(Nя-Nя+Nяпя-Икся)2Nя(1-пя)знак равно(Икся-Nяпя)2Nяпя+(Nя-Икся-(Nя-Nяпя))2Nя(1-пя)знак равно(Икся-Nяпя)2Nяпя+((Nя-Икся)-Nя(1-пя))2Nя(1-пя)знак равно(Оя(A)-Ея(A))2Ея(A)+(Оя(A¯)-Ея(A¯))2Ея(A¯)

Это означает, что вы должны получить один и тот же ответ в обоих направлениях, вплоть до ошибки округления.

Посмотрим:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649  

Хи-квадрат = 11,353846 + 0,187548 = 11,54139

Что соответствует их ответу.

Glen_b - Восстановить Монику
источник
1
Спасибо за вашу помощь! Я не математик / статистика, так что это поначалу меня смутило, но ваше объяснение очень легко понять.
user1578653