Я исключу все биологические детали и эксперименты и укажу только проблему и то, что я сделал статистически. Я хотел бы знать, если это правильно, и если нет, как действовать. Если данные (или мое объяснение) недостаточно ясны, я постараюсь объяснить лучше, отредактировав.
Предположим, у меня есть две группы / наблюдения, X и Y, с размером и . Я хотел бы знать, равны ли средства этих двух наблюдений. Мой первый вопрос:N y = 40
Если предположения выполнены, уместно ли здесь использовать параметрический t-критерий с двумя выборками? Я спрашиваю об этом, потому что из моего понимания его обычно применяют, когда размер маленький?
Я построил гистограммы как X, так и Y, и они не были нормально распределены, одно из предположений t-критерия с двумя выборками. Моя путаница заключается в том, что я считаю их двумя группами населения, и поэтому я проверил нормальное распределение. Но затем я собираюсь выполнить t-тест из двух образцов ... Это правильно?
Из центральной теоремы о пределе я понимаю, что если вы выполняете выборку (с / без повторений в зависимости от размера вашей популяции) несколько раз и каждый раз вычисляете среднее значение выборок, то оно будет приблизительно нормально распределено. И среднее значение этой случайной величины будет хорошей оценкой среднего значения популяции. Итак, я решил сделать это как по X, так и по Y, 1000 раз, и получил выборки, и я назначил случайную величину для среднего значения каждой выборки. Сюжет был очень нормально распределен. Средние значения X и Y составляли 4,2 и 15,8 (которые были такими же, как у населения + - 0,15), а дисперсия составляла 0,95 и 12,11.
Я выполнил t-тест этих двух наблюдений (1000 точек данных каждое) с неравными отклонениями, потому что они очень разные (0,95 и 12,11). И нулевая гипотеза была отвергнута.
Имеет ли это смысл вообще? Является ли этот правильный / осмысленный подход достаточным или достаточно z-критерия с двумя образцами или он полностью неверен?Я также выполнил непараметрический тест Уилкоксона, чтобы быть уверенным (на оригинальных X и Y), и нулевая гипотеза была также убедительно отвергнута. В случае, если мой предыдущий метод был совершенно неверным, я полагаю, что проведение непараметрического теста - это хорошо, разве что статистическая мощность может быть?
В обоих случаях средства были существенно различны. Тем не менее, я хотел бы знать, являются ли один или оба подхода ошибочными / полностью неправильными, и если да, то какова альтернатива?
Одно дополнение к уже очень полному ответу Грега.
Если я вас правильно понимаю, ваш пункт 3 гласит следующую процедуру:
Теперь вы предполагаете, что для этого значения справедлива центральная предельная теорема и соответствующая случайная величина будет нормально распределена.
Может быть, давайте посмотрим на математику за вашими вычислениями, чтобы определить ошибку:
Однако теперь Центральная предельная теорема утверждает, что сумма множества независимых случайных величин приблизительно нормальна. (Что приводит к тому, что среднее значение также является нормальным).
Ваша сумма выше не дает независимых образцов. Возможно, у вас есть случайные веса, но это не делает ваши выборки независимыми вообще. Таким образом, процедура, написанная в 3, не является законной.
источник