Я проверяю равенство средств, используя t-критерий Уэлча. Базовое распределение далеко от нормального (более искажено, чем пример в соответствующем обсуждении здесь ). Я могу получить больше данных, но хотел бы найти принципиальный способ определить, в какой степени это сделать.
- Существует ли хорошая эвристика для оценки приемлемости распределения выборки? Какие отклонения от нормы являются наиболее касающимися?
- Существуют ли другие подходы, например, основанные на доверительном интервале начальной загрузки для выборочной статистики, которые имеют больше смысла?
Ответы:
Поскольку t- тест предполагает нормальность, а ваши базовые распределения не являются нормальными, не может быть принципиального способа определить, что выборочное распределение является приемлемым. Однако, когда размер выборки становится «большим», включается центральная предельная теорема, и вы можете использовать z-критерий большой выборки, который, по сути, даст вам тот же ответ, что и t -тест, поскольку t приближается к нормальному распределению с большие образцы.
Книги / курсы статистики часто подразумевают, что при выборке 25 или 30 CLT вступает в игру полезным способом. Тем не менее, по моему опыту, даже при размерах выборки в сотнях больших z-тестов выборка все еще может быть довольно плохой (например, с данными подсчета).
На мой взгляд, тест на перестановку хорошо подходит для вашей задачи. Он должен иметь одинаковую или лучшую мощность, чем стандартные непараметрические тесты (например, Манн-Уитни), и вам не нужно беспокоиться о проблеме нормальности. И они весело писать.
источник