У меня есть данные для двух групп (то есть выборок), которые я хочу сравнить, но общий размер выборки небольшой (n = 29) и сильно несбалансированный (n = 22 против n = 7).
Эти данные сложны с точки зрения логистики и дороги для сбора, поэтому «собрать больше данных» как очевидное решение в данном случае бесполезно.
Был измерен ряд различных переменных (дата отъезда, дата прибытия, продолжительность миграции и т. Д.), Поэтому существует несколько тестов, некоторые из которых сильно различаются (меньшая выборка имеет более высокую дисперсию).
Первоначально коллега проводил t-тесты на этих данных, и некоторые были статистически значимыми с P <0,001, другие не были значимыми с P = 0,069. Некоторые образцы были нормально распределены, другие - нет. Некоторые тесты включали большие отклонения от «равных» отклонений.
У меня есть несколько вопросов:
- уместны ли здесь t-тесты? Если нет, то почему? Относится ли это только к тестам, в которых выполняются предположения о нормальности и равенстве дисперсий?
- что является подходящей альтернативой (ами)? Возможно тест перестановки?
- неравная дисперсия раздувает ошибку I типа, но как? и как маленький несбалансированный размер выборки влияет на ошибку типа I?
источник
Во-первых, как уже указывал Scortchi, T-критерий не очень подходит для ваших данных из-за его предположений о распределении данных.
Во-вторых, я бы предложил альтернативу T-критерию. Если вас интересует только тот факт, что распределение ваших двух выборок одинаково или нет, вы также можете попробовать использовать двустороннюю версию критерия суммы рангов Уилкоксона. Тест ранговой суммы Вилкоксона является непараметрическим. Этот вид теста особенно полезен, если вы не уверены в правильности распределения ваших данных.
Существует точное решение теста для малых размеров выборки, а также для больших когорт. Кроме того, существует также пакет R, который реализует критерий суммы рангов Уилкоксона.
Поскольку это тест без параметров, а также он обрабатывает выборки небольшого размера, этот тест должен хорошо подходить для вашего тестового случая.
источник