Я проверяю независимость в таблице непредвиденных обстоятельствЯ не знаю, лучше ли G-тест или критерий хи-квадрат Пирсона. Размер выборки исчисляется сотнями, но есть небольшое количество клеток. Как указано на странице Википедии , приближение к распределению хи-квадрат лучше для G-теста, чем для теста Пирсона. Но я использую симуляцию Монте-Карло для вычисления значения p, так есть ли разница между этими двумя тестами?
10
Ответы:
Они асимптотически одинаковы. Это просто разные способы достижения одной и той же идеи. В частности, критерий хи-квадрат Пирсона является тестом с оценкой, тогда как G-тест является тестом отношения правдоподобия. Чтобы лучше понять эти идеи, вам может помочь прочесть мой ответ здесь: почему мои p-значения отличаются между выводом логистической регрессии, тестом хи-квадрат и доверительным интервалом для ИЛИ? Чтобы ответить на ваш прямой вопрос, если вы вычисляете значение p с помощью симуляции Монте-Карло, это не должно иметь значения; Вы можете просто использовать тот, который вам удобнее. Обратите внимание, что нет проблем с низким количеством ячеек, только (потенциально) низкое ожидаемоеколичество клеток; возможно иметь низкое количество клеток и ожидаемое количество, которое просто отлично. Кроме того, ни малые фактические значения, ни низкие ожидаемые значения не имеют значения, когда p-значение определяется с помощью моделирования.
(Для чего бы это ни стоило, я бы, вероятно, использовал хи-квадрат Пирсона, потому что R имеет удобную функцию для этого, которая включает в себя опцию моделирования p-значения.)
источник
chisq.test
.Посмотрите на Rfast. https://cran.r-project.org/web/packages/Rfast/index.html Соответствующие команды: g2Test_univariate (data, dc) g2Test_univariate_perm (data, dc, nperm). Вычисления выполняются очень быстро. И вообще предпочитают тест G ^ 2, так как хи-квадрат является приближением к нему.
источник
Тест хи-квадрат и G-тест обычно дают схожие результаты. Но самое главное, что вы должны выбрать один из двух тестов и придерживаться его не только для упомянутого вами теста, но и для будущих тестов в ходе вашего исследования. Это целесообразно, потому что если вы попытаетесь использовать оба теста взаимозаменяемо, очень вероятно, что вы увеличите вероятность получения ложного срабатывания.
источник