Я пытаюсь сравнить данные двух групп, чтобы определить, является ли разница между обработками статистически значимой. Наборы данных, кажется, обычно распределяются с очень небольшим различием между этими двумя наборами. Средняя разница составляет 0,00017. Я выполнил парный t-тест, ожидая, что мне не удастся отвергнуть нулевую гипотезу о разнице между средними значениями, однако мое вычисленное t-значение намного выше моего критического t-значения.
10
Ответы:
Я не вижу причин полагать, что вы сделали что-то не так только потому, что тест был значительным, даже если средняя разница очень мала. В парном t-тесте значимость будет определяться тремя факторами:
По общему признанию, ваша средняя разница очень и очень мала. С другой стороны, у вас есть достаточное количество данных (N = 335). Последний фактор - стандартное отклонение различий. Я не знаю, что это такое, но поскольку вы получили значительный результат, можно предположить, что он достаточно мал, чтобы преодолеть небольшую среднюю разницу с количеством данных, которые у вас есть. Ради построения интуиции представьте, что парные различия для каждого наблюдения в вашем исследовании составляли 0,00017, тогда стандартное отклонение различий будет равно 0. Конечно, было бы разумно сделать вывод, что лечение привело к снижению (хотя и крошечный).
Как отмечает @whuber в комментариях ниже, стоит отметить, что хотя 0,00017 выглядит как очень небольшое число как само число, оно не обязательно мало в значимых терминах. Чтобы знать это, нам нужно знать несколько вещей, во-первых, что такое подразделения. Если единицы очень большие (например, годы, километры и т. Д.), То, что кажется маленьким, может быть значимо большим, тогда как, если единицы маленькие (например, секунды, сантиметры и т. Д.), Эта разница кажется еще меньше. Во-вторых, даже небольшое изменение может быть важным: представьте себе какое-то лечение (например, вакцину), которое было бы очень дешевым, простым в применении для всего населения и не имело побочных эффектов. Это вполне может стоить сделать, даже если это спасло очень мало жизней.
источник
Чтобы узнать, действительно ли разница велика или мала, требуется некоторая мера масштаба, стандартное отклонение составляет одну меру масштаба и является частью формулы t-критерия, чтобы частично учесть эту шкалу.
Подумайте, сравниваете ли вы высоты 5-летних с высотой 20-летних (люди, тот же географический район и т. Д.). Интуиция говорит нам, что есть практическая разница, и если высота измеряется в дюймах или сантиметрах, то разница будет выглядеть значимой. Но что, если вы преобразуете высоты в километры? или световые годы? тогда разница будет очень малой (но все же другой), но (за исключением ошибки округления) t-критерий даст те же результаты, независимо от того, измеряется ли высота в дюймах, сантиметрах или километрах.
Таким образом, разница в 0,00017 может быть огромной в зависимости от масштаба измерений.
источник
unlikely to emerge at least as large in another, similar pair of samples selected randomly from the same populations if the null hypothesis of no difference is literally true of those populations
.00001
Возможно, вас больше заинтересует практическая значимость, чем этот буквальный смысл проверки значимости нулевой гипотезы. Практическая значимость будет зависеть гораздо больше от значения ваших данных в контексте, чем от статистической значимости; это не чисто статистический вопрос. Я привел полезный пример этого принципа в ответе на один из популярных вопросов здесь: адаптация укоренившихся представлений о p-значениях :
Этот «вопрос жизни и смерти» был эффектом аспирина на сердечные приступы, в основном - мощный пример численно небольших, гораздо менее последовательных различий с практически важным значением. Многие другие вопросы с четкими ответами, которые могут принести вам пользу, заслуживают ссылки здесь, включая:
Ссылка
Розенталь Р., Роснов Р.Л. и Рубин Д.Б. (2000). Контрасты и величины эффекта в поведенческих исследованиях: корреляционный подход . Издательство Кембриджского университета.
источник
Вот пример в R, который показывает теоретические концепции в действии. 10 000 попыток подбрасывания монеты 10000 раз с вероятностью головы 0,0001 по сравнению с 10 000 попыток подбрасывания монеты 10 000 раз с вероятностью головы 0,00011
t.test (rbinom (10000, 10000, .0001), rbinom (10000, 10000, .00011))
t = -8,0299, df = 19886,35, p-значение = 1,03e-15. Альтернативная гипотеза: истинная разница в средних не равна 0 95-процентному доверительному интервалу: -0,14493747 -0,08806253 выборочные оценки: среднее от x среднего y 0,9898 1,1063
Разница в среднем относительно близка к 0 с точки зрения человеческого восприятия, однако она очень статистически отличается от 0.
источник