Я читал, что тест хи-квадрат полезен, чтобы увидеть, значительно ли образец отличается от набора ожидаемых значений.
Например, вот таблица результатов опроса относительно любимых цветов людей (всего n = 15 + 13 + 10 + 17 = 55 респондентов):
red,blue,green,yellow
15,13,10,17
Тест хи-квадрат может сказать мне, значительно ли этот образец отличается от нулевой гипотезы равной вероятности людей, которым нравится каждый цвет.
Вопрос: Можно ли выполнить тест на пропорциях от общего числа респондентов, которым нравится определенный цвет? Как ниже:
red,blue,green,yellow
0.273,0.236,0.182,0.309
Где, конечно, 0,273 + 0,236 + 0,182 + 0,309 = 1.
Если тест хи-квадрат не подходит в этом случае, какой тест будет? Благодарность!
Изменить: я попытался @Roman Luštrik ответ ниже, и получил следующий вывод, почему я не получаю p-значение и почему R говорит: «Приближение хи-квадрат может быть неправильным»?
> chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0))
Chi-squared test for given probabilities
data: c(0, 0, 0, 8, 6, 2, 0, 0)
X-squared = NaN, df = 7, p-value = NA
Warning message:
In chisq.test(c(0, 0, 0, 8, 6, 2, 0, 0), p = c(0.406197174, 0.088746395, :
Chi-squared approximation may be incorrect
Ответы:
Поправьте меня, если я ошибаюсь, но я думаю, что это можно сделать в R с помощью этой команды
Это предполагает пропорции 1/4 каждый. Вы можете изменить ожидаемые значения с помощью аргумента
p
. Например, вы думаете, что люди могут предпочесть (по любой причине) один цвет другим (и).источник
Используя предоставленную вами дополнительную информацию (поскольку некоторые значения равны 0), становится совершенно очевидно, почему ваше решение ничего не возвращает. Например, у вас есть вероятность, равная 0, поэтому:
Что делает невозможным разделение. Теперь говорят, чтоp=0 , это означает, что такой результат невозможен. Если это так, вы можете просто стереть его из данных (см. Комментарий @cardinal). Если вы имеете в виду крайне маловероятное, первое «решение» может заключаться в том, чтобы увеличить этот 0 шанс с очень небольшим числом.
Данный :
Вы могли бы сделать:
Но это не правильный результат. В любом случае, следует избегать использования критерия хи-квадрат в этих пограничных случаях. Лучшим подходом является использование метода начальной загрузки, вычисление адаптированной статистики теста и сравнение данных из выборки с распределением, полученным начальной загрузкой.
В коде R это может быть (шаг за шагом):
Это дает значение p, равное 0, что намного больше соответствует разнице между наблюдаемым и ожидаемым. Имейте в виду, этот метод предполагает, что ваши данные взяты из полиномиального распределения. Если это предположение не выполняется, значение p также не выполняется.
источник
Критерий хи-квадрат хорош, если ожидаемые значения велики, обычно выше 10 - хорошо. ниже этого часть имеет тенденцию доминировать в тесте. Точная статистика теста определяется как:1E(xi)
Где - наблюдаемый счет в категории i . i ∈ { красный, синий, зеленый, желтый } в вашем примере. n - ваш размер выборки, равный 55 в вашем примере. p i - это гипотеза, которую вы хотите проверить - наиболее очевидным является p i = p j (все вероятности равны). Вы можете показать, что статистика хи-квадрат:xi i i∈{red, blue, green, yellow} n 55 pi pi=pj
In terms of the observed frequenciesfi=xin we get:
(Note thatψ is the effectively the KL divergence between the hypothesis and the observed values). You may be able to see intuitively why ψ is better for small pi , because it does have a 1pi but it also has a log function which is absent from the chi-square, this "reigns in" the extreme values caused by small expected counts. Now the "exactness" of this ψ statistic is not as an exact chi-square distribution - it is exact in a probability sense. The exactness comes about in the following manner, from Jaynes 2003 probability theory: the logic of science.
If you have two hypothesisH1 and H2 (i.e. two sets of pi values) that you wish to test, each with test statistics ψ1 and ψ2 respectively, then exp(ψ1−ψ2) gives you the likelihood ratio for H2 over H1 . exp(12χ21−12χ22) gives an approximation to this likelihood ratio.
Now if you chooseH2 to be the "sure thing" or "perfect fit" hypothesis, then we will have ψ2=χ22=0 , and thus the chi-square and psi statistic both tell you "how far" from the perfect fit any single hypothesis is, from one which fit the observed data exactly.
Final recommendation: Useχ22 statistic when the expected counts are large, mainly because most statistical packages will easily report this value. If some expected counts are small, say about npi<10 , then use ψ , because the chi-square is a bad approximation in this case, these small cells will dominate the chi-square statistic.
источник
Yes, you can test the null hypothesis: "H0: prop(red)=prop(blue)=prop(green)=prop(yellow)=1/4" using a chi square test that compares the proportions of the survey (0.273, ...) to the expected proportions (1/4, 1/4, 1/4, 1/4)
источник
The test statistic for Pearson's chi-square test is
If you writeoi=Oin and ei=Ein to have proportions, where n=∑ni=1Oi is the sample size and ∑ni=1ei=1 , then the test statistic is is equal to
so a test of the significance of the observed proportions depends on the sample size, much as one would expect.
источник