Я хотел бы понять использование моделирования Монте-Карло в chisq.test()
функции в R.
У меня есть качественная переменная, которая имеет 128 уровней / классов. Мой размер выборки составляет 26 (я не смог выбрать больше «отдельных лиц»). Поэтому очевидно, что у меня будет несколько уровней с 0 «индивидуумами». Но дело в том, что у меня есть только очень небольшое количество классов, представленных из 127 возможных. Поскольку я слышал, что для применения критерия хи-квадрат у нас должно быть не менее 5 человек на каждом уровне (я не до конца понимаю причину этого), я подумал, что мне нужно было использовать simulate.p.value
опцию моделирования Монте-Карло для оценки распределения и вычислить значение р. Без симуляции Монте-Карло R дает мне значение p < 1e-16
. С симуляцией Монте-Карло это дает мне значение p при 4e-5
.
Я попытался вычислить p-значение с вектором из 26 единиц и 101 нулей, и с помощью симуляции Монте-Карло я получил p-значение в 1.
Можно ли утверждать, что, даже если размер моей выборки невелик по сравнению с количеством возможных классов, наблюдаемое распределение таково, что маловероятно, чтобы в реальной популяции все возможные классы существовали с одинаковой вероятностью (1/127) ?
источник
Ответы:
При поиске кажется, что цель симуляции Монте-Карло состоит в том, чтобы создать эталонное распределение, основанное на случайно сгенерированных выборках, которые будут иметь тот же размер, что и тестируемая выборка, чтобы вычислить p-значения, когда условия теста не выполняются.
Это объясняется в Hope A. J, Королевском стате общества, серия B (1968), которую можно найти на JSTOR .
Вот соответствующая цитата из бумаги Надежды:
источник