Как выполнить тест начальной загрузки, чтобы сравнить средства двух образцов?

12

У меня есть две сильно искаженные выборки, и я пытаюсь использовать начальную загрузку, чтобы сравнить их с помощью t-статистики.

Как правильно это сделать?


Процесс, который я использую

Я обеспокоен целесообразностью использования стандартной ошибки исходных / наблюдаемых данных на последнем этапе, когда я знаю, что это обычно не распространяется.

Вот мои шаги:

  • Bootstrap - случайная выборка с заменой (N = 1000)
  • Вычислить Т-статистика для каждой начальной загрузки , чтобы создать т-распределение:
    T(b)=(X¯b1X¯b2)(X¯1X¯2)σxb12/n+σxb22/n
  • Оцените t доверительных интервалов, получив и процентили t-распределенияα/21α/2
  • Получите доверительные интервалы через:

    CIL=(X¯1X¯2)T_CIL.SEoriginal
    CIU=(X¯1X¯2)+T_CIU.SEoriginal
    где
    SE=σX12/n+σX22/n
  • Посмотрите, где падают доверительные интервалы, чтобы определить, есть ли значительная разница в средних (т. Е. Не ноль)

Я также посмотрел на ранговую сумму Уилкоксона, но она не дает очень разумных результатов из-за очень сильно искаженного распределения (например, 75-й == 95-й процентиль). По этой причине я хотел бы подробнее изучить начальный t-критерий.

Итак, мои вопросы:

  1. Это подходящая методология?
  2. Целесообразно ли использовать SE наблюдаемых данных, когда я знаю, что они сильно искажены?

Возможный дубликат: Какой метод предпочтительнее: тест начальной загрузки или непараметрический тест на основе рангов?

CatsLoveJazz
источник
Насколько велики образцы?
Майкл М
@ Майкл Майер Около 800
CatsLoveJazz
См. Также stats.stackexchange.com/questions/189587
амеба говорит восстановить Monica

Ответы:

16

Я бы просто сделал обычный тест начальной загрузки:

  • вычислить t-статистику в ваших данных и сохранить ее
  • измените данные так, чтобы нулевая гипотеза была верной. В этом случае вычтите среднее значение в группе 1 для группы 1 и добавьте общее среднее значение и сделайте то же самое для группы 2, чтобы средние значения в обеих группах были общими.
  • Возьмите образцы начальной загрузки из этого набора данных, вероятно, порядка 20000.
  • вычислить t-статистику в каждой из этих выборок начальной загрузки. Распределение этой t-статистики является оценкой начальной загрузки распределения выборки t-статистики в ваших искаженных данных, если нулевая гипотеза верна.
  • p(+1)(+1)

Вы можете прочитать больше об этом в:

Мартен Буис
источник
По сути, это то, что я делаю, но смотря на то, сколько раз исходная / наблюдаемая t-статистика> = загрузочная t-статистика. Можно ли вначале провести t-тест на сильно искаженных данных, хотя это одна из причин, по которой я хочу повысить уровень.
CatsLoveJazz
2
Технически, для теста начальной загрузки вам просто нужна статистика теста, так что это не проблема. В сущности, t-критерий сравнивает средние значения, а в искаженных данных медианы часто более значимы, чем средние значения. Так что тест, сравнивающий медианы вместо средних, может иметь больше смысла. Однако это зависит от вашей нулевой гипотезы, которая является вашим выбором и вашим выбором в одиночку.
Мартен Буис
Хорошо, спасибо, это означает, что мы хотим протестировать, так как все наши другие результаты были в этой форме.
CatsLoveJazz