У меня есть две сильно искаженные выборки, и я пытаюсь использовать начальную загрузку, чтобы сравнить их с помощью t-статистики.
Как правильно это сделать?
Процесс, который я использую
Я обеспокоен целесообразностью использования стандартной ошибки исходных / наблюдаемых данных на последнем этапе, когда я знаю, что это обычно не распространяется.
Вот мои шаги:
- Bootstrap - случайная выборка с заменой (N = 1000)
- Вычислить Т-статистика для каждой начальной загрузки , чтобы создать т-распределение:
- Оцените t доверительных интервалов, получив и процентили t-распределения
Получите доверительные интервалы через:
где- Посмотрите, где падают доверительные интервалы, чтобы определить, есть ли значительная разница в средних (т. Е. Не ноль)
Я также посмотрел на ранговую сумму Уилкоксона, но она не дает очень разумных результатов из-за очень сильно искаженного распределения (например, 75-й == 95-й процентиль). По этой причине я хотел бы подробнее изучить начальный t-критерий.
Итак, мои вопросы:
- Это подходящая методология?
- Целесообразно ли использовать SE наблюдаемых данных, когда я знаю, что они сильно искажены?
Возможный дубликат: Какой метод предпочтительнее: тест начальной загрузки или непараметрический тест на основе рангов?
источник
Ответы:
Я бы просто сделал обычный тест начальной загрузки:
Вы можете прочитать больше об этом в:
Глава 4 AC Davison и DV Hinkley (1997). Методы начальной загрузки и их применение . Кембридж: издательство Кембриджского университета.
Глава 16 Брэдли Эфрона и Роберта Дж. Тибширани (1993) . Введение в бутстрап . Бока Ратон: Чепмен и Холл / CRC.
Запись в Википедии о проверке гипотезы начальной загрузки.
источник