Тесты, такие как Z, t и некоторые другие, предполагают, что данные основаны на случайной выборке. Почему?
Предположим, что я занимаюсь экспериментальными исследованиями, в которых мне важнее внутренняя достоверность, чем внешняя. Итак, если моя выборка может быть немного предвзятой, хорошо, поскольку я согласился не делать вывод о гипотезе для всего населения. И группировка все равно будет случайной, то есть для удобства я выберу участников выборки, но я буду случайным образом распределять их по разным группам.
Почему я не могу просто проигнорировать это предположение?
Ответы:
Если вы не делаете никаких выводов для более широкой группы, чем ваша фактическая выборка, то, во-первых, статистические тесты не применяются, и вопроса о «предвзятости» не возникает. В этом случае вы просто рассчитаете описательную статистику вашей выборки, которая известна. Точно так же в этом случае не возникает вопроса о «достоверности» модели - вы просто наблюдаете за переменными и записываете их значения, а также описываете аспекты этих значений.
Как только вы решите выйти за рамки выборки, сделать выводы о какой-то более крупной группе, вам понадобится статистика, и вам нужно будет рассмотреть такие вопросы, как смещение выборки и т. Д. В этом приложении случайная выборка становится полезным свойством, помогающим получить надежную информацию. выводы более широкой группы интересов. Если у вас нет случайной выборки (и вы не знаете вероятностей ваших выборок на основе совокупности), то становится трудно / невозможно сделать надежные выводы о совокупности.
источник
В реальных научных исследованиях очень редко можно получить данные, полученные из реальной случайной выборки. Данные почти всегда являются удобными образцами. Это в первую очередь влияет на то, какое население вы можете обобщить. Тем не менее, даже если они были для удобства, они пришли откуда-то, вам просто нужно четко понимать, где и какие ограничения это подразумевает. Если вы действительно верите, что ваши данные ничего не представляют, тогда ваше исследование не будет полезным на любом уровне, но это, вероятно, неверно 1 . Таким образом, часто разумно считать ваши образцы взятыми откуда-то и использовать эти стандартные тесты, по крайней мере, в хеджированном или квалифицированном смысле.
Однако существует другая философия тестирования, которая утверждает, что мы должны отойти от тех предположений и тестов, которые на них полагаются. Тьюки был сторонником этого. Вместо этого большинство экспериментальных исследований считается (внутренне) действительным, поскольку единицы исследования (например, пациенты) были случайным образом распределены по группам. Учитывая это, вы можете использовать тесты перестановок , которые в основном предполагают, что рандомизация была выполнена правильно. Контраргумент для беспокойства по этому поводу состоит в том, что тесты перестановки обычно показывают то же самое, что и соответствующие классические тесты, и требуют больше работы. Итак, опять же, стандартные тесты могут быть приемлемыми.
1. Более подробно об этом можно прочитать здесь: « Идентификация населения и выборок в исследовании» .
источник
Такие тесты, как Z, t и некоторые другие, основаны на известных распределениях выборки соответствующей статистики. Те распределения выборки, которые обычно используются, определяются для статистики, рассчитанной по случайной выборке.
Иногда может быть возможно разработать соответствующее распределение выборки для неслучайной выборки, но в целом это, вероятно, невозможно.
источник