Какой смысл сравнивать p-значения друг с другом?

20

У меня есть две группы населения (мужчины и женщины), каждая из которых содержит образцов. Для каждого образца у меня есть два свойства A & B (средний балл за первый год и оценка SAT). Я использовал t-тест отдельно для A & B: обе обнаружили значительные различия между двумя группами; А с и В с .1000р = 0,002p=0.008p=0.002

Можно ли утверждать, что свойство B лучше разграничено (более значимо), чем свойство A? Или это то, что критерий Стьюдента - это просто мера да или нет (значимая или не значимая)?

Обновление : в соответствии с комментариями здесь и тем, что я читал в Википедии , я думаю, что ответ должен быть: отбросьте бессмысленное значение p и сообщите размер эффекта . Есть предположения?

Дов
источник
+ пожалуйста, прости меня, что я не являюсь носителем английского языка :)
Дов
Нет проблем: если вы чувствуете, что внесенные мной (незначительные) изменения каким-либо образом изменили ваш вопрос, пожалуйста, не стесняйтесь их исправлять.
whuber
Какой результат вы измерили? (то есть чем это отличается между группами, определенными A / не A, или B / не B?) Это измерено на всех 1000 образцах, или некоторые отсутствуют?
Гость
3
Было бы неплохо сообщить о двух разных величинах эффекта или доверительных интервалах для двух разных размеров эффекта. Было бы легче интерпретировать это, если бы результат в каждом из ваших двух наборов данных был одинаковым (не так ли?).
Питер Эллис
2
Вы можете очень удобно показать статистическую значимость и величину эффекта, используя лесной участок! Представление 95% CI означает, что вы используете 4 числа вместо 2, но, как все намекают, это в достаточной степени представляет объем информации, необходимый для сравнения экспериментов.
AdamO

Ответы:

20

Многие люди утверждают, что значение может быть либо значимым ( p < α ), либо нет, и поэтому нет смысла сравнивать два p-значения между собой. Это не правильно; в некоторых случаях это так.pp<αp

В вашем конкретном случае нет никаких сомнений в том, что вы можете напрямую сравнить . Если размер выборки является фиксированным ( n = 1000 ), то p- значения монотонно связаны с t-значениями , которые, в свою очередь, монотонно связаны с величиной эффекта, измеренной по d Коэна . В частности, d = 2 т / pn=1000ptd . Это означает, что вашиp-значениянаходятся внепосредственномсоответствии с размером эффекта, и поэтому вы можете быть уверены, что еслиp-значение для свойства A больше, чем для свойства B, то размер эффекта для A будет меньше чем для имущества Б.d=2t/npp

Я считаю, что это отвечает на ваш вопрос.

Несколько дополнительных пунктов:

  1. Это верно только при условии фиксированного размера выборки . Если вы получите p = 0,008 для свойства A в одном эксперименте с одним размером выборки и p = 0,002 для свойства B в другом эксперименте с другим размером выборки, их будет сложнее сравнить.np=0.008p=0.002

    • Если вопрос заключается именно в том, лучше ли «дискриминируют» A или B в популяции (т. Е. Насколько хорошо вы можете предсказать пол, глядя на значения A или B?), Тогда вам следует рассмотреть величину эффекта. В простых случаях, зная и пpn достаточно для вычисления величины эффекта.

    • Если вопрос более расплывчатый: какой эксперимент дает больше «доказательств» против нуля? (это может иметь смысл , если , например , A = B) - то проблема усложняется и спорными, но я бы сказал , что -значение по определению является скаляр резюме доказательств против нулевой, поэтому опустить р -Value Чем сильнее доказательства, даже если размеры выборки различны.pp

  2. Сказать, что размер эффекта для B больше, чем для A, не означает, что он значительно больше. Вам нужно прямое сравнение между A и B, чтобы сделать такое утверждение.

  3. Всегда полезно сообщать (и интерпретировать) размеры эффекта и доверительные интервалы в дополнение к .p

амеба говорит восстановить монику
источник
3
Хорошие баллы о монотонности и хорошие итоговые 3 балла. Теперь, re: утверждение «Вы можете быть уверены»: достаточно верно для образца, но «значительно так»? (То есть с достоверными последствиями для населения?) Вы кратко рассмотрели этот вопрос в # 2. Более полное обращение с этим будет приветствоваться. Приветствия ~
rolando2
4
Это правильно, но я также попытался прояснить, что в этом случае это только верно (вы также отметили это). Я думаю, что Мишель подчеркивает, что в общем случае вы не должны использовать p-значения таким образом.
gung - Восстановить Монику
1
p
1
@AndrewM Возможно. Я отредактировал начало моего ответа. Посмотри, нравится ли тебе это сейчас.
говорит амеба: восстанови монику
0

Спасибо тому, кто только что проголосовал против меня, поскольку у меня теперь совершенно другой ответ на этот вопрос. Соответственно, я удалил свой первоначальный ответ, поскольку он неверен с этой точки зрения.

В контексте этого вопроса, который касается только вопроса «был ли A или B лучшим дискриминатором в моем исследовании», мы имеем дело с переписью, а не выборкой. Таким образом, использование логических выводов, таких как те, которые используются для получения значений p, не имеет значения. Инференциальная статистика используется для выведения оценок популяции из тех, которые мы получаем из нашей выборки. Если мы не хотим обобщать на население, то эти методы не нужны. (Есть некоторые конкретные проблемы, связанные с отсутствующими значениями в переписи, но они не имеют значения в этой ситуации.)

Нет вероятности получения результата в популяции. Мы получили результат, который получили. Поэтому вероятность наших результатов составляет 100%. Нет необходимости строить доверительный интервал - точная оценка для выборки является точной. Нам просто не нужно ничего оценивать.

В конкретном случае «какая переменная лучше работает с имеющимися у меня данными», все, что нужно сделать, это посмотреть на результаты в простой сводной форме. Может быть достаточно таблицы, может быть, график, похожий на блочный график.

Мишель
источник
-1

Вы получаете разницу в p, но неясно, что означает эта разница (большая, маленькая, значительная?)

Может быть, использовать начальную загрузку:

выберите (с заменой) из ваших данных, повторите ваши тесты, вычислите разность p (p_a - p_b), повторите 100-200 раз

проверьте, какая доля ваших дельта p <0 (имеется в виду, что p из A ниже p из B)

Примечание: я видел, что это сделано, но я не эксперт.

Мартин
источник
1
Этот ответ описывает один способ сравнения p-значений, но первоначальный вопрос, кажется, остается без ответа: имеет ли процедура смысл и как интерпретировать результаты?
whuber
-1

Добавлен ответ, так как это было слишком долго для комментария!

У Мишель хороший ответ, но многие комментарии показывают некоторые общие дискуссии о p-значениях. Основные идеи следующие:

1) Меньшее значение p не означает, что результат является более или менее значимым. Это просто означает, что шансы получить результат, по крайней мере, как экстремальный, менее вероятны. Значимость - это двоичный результат, основанный на выбранном вами уровне значимости (который вы выбираете перед запуском теста).

2) Размер эффекта (часто стандартизированный к # стандартных отклонений) - это хороший способ количественно определить «насколько разные» два числа. Таким образом, если величина A имеет величину эффекта 0,8 стандартных отклонений, а величина B имеет величину эффекта 0,5 стандартных отклонений, можно сказать, что между двумя группами в количестве A существует большая разница, чем в количестве B. Стандартные измерения :

.2 стандартные отклонения = "маленький" эффект

.5 стандартные отклонения = "средний" эффект

.8 стандартные отклонения = "большой" эффект

Дункан
источник
1
Но при фиксированном размере выборки значение р напрямую монотонно связано с величиной эффекта!
говорит амеба, восстанови Монику