Что означает значения p и t в статистических тестах?

246

Пройдя курс статистики и затем пытаясь помочь сокурсникам, я заметил, что один предмет, который вызывает много шума, - это интерпретация результатов статистических проверок гипотез. Кажется, что студенты легко учатся выполнять вычисления, требуемые данным тестом, но зацикливаются на интерпретации результатов. Многие компьютеризированные инструменты сообщают результаты теста в терминах «значений p» или «t значений».

Как бы вы объяснили студентам колледжа, проходящим первый курс по статистике, следующие моменты:

  • Что означает «р-значение» по отношению к проверяемой гипотезе? Есть ли случаи, когда нужно искать высокое p-значение или низкое p-значение?

  • Какова связь между p-значением и t-значением?

остроносая плоскодонная шлюпка
источник
11
Достаточная часть этого в основном покрыта первым предложением статьи в Википедии о значениях p , которое правильно определяет значение p. Если это понятно, многое проясняется.
Glen_b
1
Просто возьмите книгу: статистика без слез. Это может спасти ваше здравомыслие!
7
@ user48700 Не могли бы вы обобщить, как это объясняет статистика без слез ?
Мэтт Краузе
5
Кто-то должен нарисовать график вопросов, связанных с p-значением, с течением времени, и я готов поспорить, что мы увидим сезонность и связь с академическими календарями в колледжах или на курсах Datara Data Science
Aksakal,
В дополнение к другим хорошим и актуальным рекомендациям в ответах и ​​комментариях я хотел бы предложить еще одну книгу, которая называется «Что такое p-значение?». ,
Александр Блех

Ответы:

150

Понимание значенияp

Предположим, вы хотите проверить гипотезу о том, что средний рост студентов мужского пола в вашем университете составляет футов дюймов. Вы собираете высоты учеников, выбранных случайным образом, и вычисляете среднее значение выборки (скажем, оно составляет футов дюймов). Используя соответствующую формулу / статистическую процедуру, вы вычисляете значение для вашей гипотезы и говорите, что оно оказалось равным .7 100 5 9 р 0,065710059p0.06

Чтобы правильно интерпретировать , мы должны помнить несколько вещей:p=0.06

  1. Первым шагом при проверке классической гипотезы является предположение о том, что рассматриваемая гипотеза верна. (В нашем контексте мы предполагаем, что истинная средняя высота составляет футов дюймов.)757

  2. Представьте себе, что вы выполняете следующий расчет: Вычислите вероятность того, что среднее значение выборки превышает футов дюймов, предполагая, что наша гипотеза действительно верна (см. Пункт 1).959

Другими словами, мы хотим знать

P(Samplemean5ft9inches|Truevalue=5ft7inches).

Вычисление на шаге 2 - это то, что называется значением. Следовательно, значение будет означать, что если бы нам пришлось повторять наш эксперимент много-много раз (каждый раз, когда мы выбираем студентов случайным образом и вычисляли среднее значение по выборке), то в случаях из мы могли бы ожидать увидеть образец означает больше или равно футов дюймов.р 0,06 100 6 100 5 9pp0.06100610059

Учитывая вышеизложенное понимание, должны ли мы по-прежнему придерживаться нашего предположения о том, что наша гипотеза верна (см. Шаг 1)? Ну, а означает, что произошло одно из двух:p=0.06

  • (A) Либо наша гипотеза верна, и произошло крайне маловероятное событие (например, все студентов являются студентами-спортсменами)100

или же

  • (B) Наше предположение неверно, и образец, который мы получили, не так уж необычен.

Традиционный способ выбора между (A) и (B) заключается в выборе произвольного отсечения для . Мы выбираем (A), если и (B), если .р > 0,05 р < 0,05pp>0.05p<0.05

rightskewed
источник
3
Не торопитесь! Я не буду думать о выборе «Лучший ответ» на неделю или около того.
Шарпи
1
Теперь, когда у меня была возможность вернуться и прочитать весь ответ - большой +1 для примера роста ученика. Очень ясно и хорошо продуман.
Шарпи
3
Хорошая работа ... но мы должны добавить (C), что наша модель (воплощенная в формуле / статистической программе) неверна.
Эндрю Робинсон
6
Т-значение (или любая другая тестовая статистика) является в основном промежуточным этапом. Это в основном некоторая статистика, которая, согласно некоторым предположениям, имеет хорошо известное распределение. Поскольку мы знаем распределение тестовой статистики по нулю, мы можем использовать стандартные таблицы (в настоящее время в основном программные) для получения p-значения.
Гала
1
Разве p-значение не получается в результате выполнения теста хи-квадрат, а затем из таблицы хи-квадрат? Интересно, как полученная выше вероятность указывает на само значение р ?!
Лондонский парень
123

Диалог между учителем и вдумчивым учеником

Смиренно утверждал, что в этой теме до сих пор использовалось недостаточно мелков. Краткое иллюстрированное резюме появляется в конце.


Ученик : Что означает р-значение? Многие люди, похоже, согласны с тем, что мы «увидим, что среднее значение выборки больше или равно» статистике или это «вероятность наблюдения этого результата ... учитывая, что нулевая гипотеза верна» или где «статистика моей выборки» упал на [смоделированное] распределение " и даже " вероятность наблюдения тестовой статистики, по крайней мере, такой же, как та, которая рассчитывается при условии, что нулевая гипотеза верна " .

Учитель : При правильном понимании все эти утверждения верны во многих обстоятельствах.

Студент : я не понимаю, насколько они актуальны. Разве вы не учили нас, что мы должны сформулировать нулевую гипотезу и альтернативную гипотезу H A ? Как они вовлечены в эти идеи "больше или равно" или "по крайней мере, настолько большие" или очень популярные "более экстремальные"?H0HA

Учитель : Поскольку это может показаться сложным в целом, поможет ли это нам исследовать конкретный пример?

Студент : Конечно. Но, пожалуйста, сделайте это реалистичным, но простым, если можете.

Учитель : Эта теория проверки гипотез исторически началась с необходимости астрономов анализировать ошибки наблюдений, так что как насчет того, чтобы начать там? Однажды я просматривал некоторые старые документы, где ученый описал свои усилия по уменьшению погрешности измерения в своем приборе. Он провел много измерений звезды в известном положении и записал их смещения до или после этого положения. Чтобы визуализировать эти смещения, он нарисовал гистограмму, которая - при небольшом сглаживании - выглядела так.

Рисунок 1: Гистограмма смещений

Ученик : Я помню, как работают гистограммы: вертикальная ось помечена как «Плотность», чтобы напомнить мне, что относительные частоты измерений представлены областью, а не высотой.

Учитель : Это верно. «Необычное» или «экстремальное» значение будет находиться в регионе с довольно небольшой площадью. Вот мелок. Как вы думаете, вы могли бы раскрасить в регионе, площадь которого составляет только одну десятую от общего числа?

Студент : Конечно; это просто. [Цвета на рисунке.]

Рисунок 2: Первая раскраска ученика.

Учитель : очень хорошо! Для меня это примерно 10% площади. Помните, однако, что единственные области на гистограмме, которые имеют значение, это те, которые находятся между вертикальными линиями: они представляют вероятность или вероятность того, что смещение будет находиться между этими линиями на горизонтальной оси. Это означает, что вам нужно раскрасить все до дна, и это будет больше половины площади, не так ли?

Студент : О, я вижу. Дай мне попробовать снова. Я хочу раскрасить там, где кривая действительно низкая, не так ли? Это самый низкий на двух концах. Нужно ли раскрашивать только в одной области или можно разбить ее на несколько частей?

Учитель : Использование нескольких частей - умная идея. Где бы они были?

Студент (указывая): здесь и здесь. Поскольку этот карандаш не очень острый, я использовал ручку, чтобы показать вам линии, которые я использую.

Рисунок 3: Вторая раскраска ученика

0.10.1

Студент : это очень плохо. Но разве это не намного лучше, чем широкое распространение смещений в вашей фигуре?

H0

0.1

Учитель : Продолжай, у тебя все хорошо.

Ученик : И альтернатива в том, что новые измерения будут менее распространены, верно?

Учитель : очень хорошо! Не могли бы вы нарисовать мне картину того, как будет выглядеть гистограмма с меньшим разбросом? Вот еще одна копия первой гистограммы; Вы можете нарисовать поверх него в качестве ссылки.

Ученик (рисует): я использую ручку, чтобы наметить новую гистограмму, и я закрашиваю область под ней. Я сделал так, чтобы большая часть кривой была близка к нулю на горизонтальной оси, и поэтому большая часть ее области близка к (горизонтальному) значению нуля: вот что значит быть менее развернутым или более точным.

Рисунок 4: Новая гистограмма студента

11

Студент : Думаю, меньше половины. Я вижу, что это проблема, но я не знаю, как это исправить. Что я должен делать?

1

Рисунок 5: Новая гистограмма учителя

Ученик : Понятно: вы вытянули его вертикально, чтобы его форма на самом деле не изменилась, но теперь красная область и серая область (включая часть под красным) равны.

Учитель : Верно. Вы смотрите на картину нулевой гипотезы (синим цветом, разбросаны) и части альтернативной гипотезы (красным цветом, с меньшим разбросом).

Студент : Что вы подразумеваете под «частью» альтернативы? Разве это не альтернативная гипотеза?

Учитель : статистика и грамматика, похоже, не смешиваются. :-) Серьезно, то, что они подразумевают под «гипотезой», обычно представляет собой целый большой набор возможностей. Здесь альтернатива (как вы уже говорили ранее) состоит в том, что измерения «менее разбросаны», чем раньше. Но насколько меньше ? Есть много возможностей. Здесь, позвольте мне показать вам еще один. Я нарисовал его желтыми черточками. Это между предыдущими двумя.

Рисунок 6: Нуль вместе с двумя элементами альтернативы

Ученик : Понятно: у вас может быть разное количество спреда, но вы не знаете заранее, насколько спред будет на самом деле. Но почему вы сделали смешную штриховку на этой картинке?

Учитель : Я хотел бы подчеркнуть, где и как отличаются гистограммы. Я заштриховал их серым цветом, где альтернативные гистограммы ниже нуля, и красным, где альтернативы выше .

Студент : Почему это имеет значение?

Учитель : Вы помните, как вы раскрасили первую гистограмму в обоих хвостах? [Просматривая документы.] Ах, вот оно. Давайте раскрасим эту картинку таким же образом.

Рисунок 7: Нулевой и альтернативный, цветной.

Студент : Я помню: это крайние ценности. Я нашел места, где нулевая плотность была как можно меньше и окрашена в 10% площади.

Учитель : Расскажите мне об альтернативах в этих экстремальных областях.

Ученик : Трудно увидеть, потому что карандаш скрыл это, но похоже, что у альтернативы почти нет шансов оказаться в областях, которые я раскрасил. Их гистограммы направлены прямо против оси значений, и под ними нет места.

2

2

0.1

0.1

0.100.2

00.2

Учитель : Вам не нужно заходить так далеко. Вы можете просто сказать, какой район является самым большим?

0.1

Учитель : Вы хорошо разбираетесь в моделях, поэтому скажите мне: как измерительный прибор становится все более и более точным, что происходит с его гистограммой?

03/4

11

Рисунок 8: Коэффициенты правдоподобия

Учитель (продолжает): Не могли бы вы показать мне, где альтернативы, как правило, более вероятны, чем нулевые?

Студент (раскраска): Здесь, в середине, очевидно. И поскольку это больше не гистограммы, я думаю, что мы должны смотреть на высоты, а не на области, поэтому я просто отмечаю диапазон значений на горизонтальной оси. Но как я узнаю, сколько в середине цвета? Где я могу перестать красить?

Рисунок 9: Графики с разметкой отношения правдоподобия

Учитель : Там нет твердого правила. Все зависит от того, как мы планируем использовать наши выводы и насколько яростны скептики. Но сидеть сложа руки и думать о том, что вы сделали: теперь вы понимаете , что результаты с большим отношением правдоподобий являются доказательством для альтернативы и результаты с небольшими отношениями правдоподобий свидетельствуют против альтернативы. Что я попрошу вас сделать, так это раскрасить область, которая, насколько это возможно, имеет малую вероятность появления при нулевой гипотезе и относительно большую вероятность появления при альтернативах. Возвращаясь к первой раскрашенной вами диаграмме, еще в начале нашего разговора вы раскрасили два нулевых хвоста, потому что они были «экстремальными». Будут ли они делать хорошую работу?

3.03.0

Рисунок 10: Улучшенная разметка

Учитель : Что это представляет?

Ученик : Мы начали с того, что вы попросили меня нарисовать всего 10% площади под исходной гистограммой - той, которая описывает ноль. Так что теперь я нарисовал 10% области, где альтернативы кажутся более вероятными. Я думаю, что когда новое измерение в этой области, это говорит нам, что мы должны верить альтернативе.

Учитель : А как скептик должен реагировать на это?

Студент : Скептик никогда не должен признать, что он не прав, не так ли? Но я думаю, что его вера должна быть немного поколеблена. В конце концов, мы организовали его так, чтобы, хотя измерение могло быть внутри области, которую я только что нарисовал, оно имеет 10% -ный шанс быть там, когда значение равно нулю. И у него больше шансов быть там, когда альтернатива верна. Я просто не могу сказать вам, насколько больше этот шанс, потому что это будет зависеть от того, насколько ученый усовершенствовал аппарат. Я просто знаю, что это больше. Так что доказательства будут против скептика.

Учитель : Хорошо. Не могли бы вы подвести итог своему пониманию, чтобы нам было совершенно ясно, что вы узнали?

Студент : я узнал, что для сравнения альтернативных гипотез с нулевыми гипотезами мы должны сравнить их гистограммы. Мы делим плотности альтернатив на плотность нуля: это то, что вы назвали «отношением правдоподобия». Чтобы сделать хороший тест, я должен выбрать небольшое число, например 10%, или что-то еще, что может потрясти скептика. Затем я должен найти значения, в которых отношение правдоподобия максимально возможно, и раскрасить их до тех пор, пока 10% (или что-то еще) не будет окрашено.

Учитель : А как бы вы использовали эту раскраску?

Ученик : Как вы напомнили ранее, раскраска должна быть между вертикальными линиями. Значения (на горизонтальной оси), лежащие под окраской, свидетельствуют о нулевой гипотезе. Другие значения - ну, трудно сказать, что они могут значить, не рассматривая все гистограммы более подробно.

0.1

Студент : Это в той области, где я последний раз красился, так что я думаю, что ученый, вероятно, был прав, и аппарат действительно был улучшен.

Учитель : И последнее. Ваш вывод основывался на выборе 10% в качестве критерия или «размера» теста. Многие люди предпочитают использовать 5% вместо этого. Некоторые предпочитают 1%. Что вы могли бы им сказать?

00.10.050.10.080.1, Они не пришли бы к такому же выводу, как я: они сказали бы, что недостаточно доказательств того, что изменение действительно произошло.

0.08

Студент : Спасибо. Я не уверен, что я полностью все это понимаю, но вы дали мне много думать.

Учитель : Если вы хотите пойти дальше, взгляните на лемму Неймана-Пирсона . Вы, вероятно, готовы понять это сейчас.


конспект

ztt=0.1

Рисунок 11: значение p как площадь.

0t=0.1достигнуто Значение p - это область затененной области под нулевой гистограммой: это шанс, если нулевое значение истинно, наблюдать результат, отношения вероятности которого, как правило, велики независимо от того, какая альтернатива оказывается истинной. В частности, эта конструкция тесно связана с альтернативной гипотезой. Это не может быть выполнено без указания возможных альтернатив.

Whuber
источник
4
Это превосходно относится к моему комментарию к другому ответу, что ни один из предыдущих ответов на этот вопрос, в общем, не затрагивал общепризнанный «или более экстремальный» аспект р- значения. (Хотя ответ «проверка чая» включал хороший конкретный пример.) Я особенно восхищаюсь тем, как этот пример был намеренно создан, чтобы подчеркнуть, что «более экстремальный» может означать совершенно противоположное «больше» или «дальше от нуля».
Серебряная рыба
4
H1H1
3
Уникально проницательный, как всегда, спасибо, что нашли время написать эти невероятно полезные ответы. Мне действительно интересно, почему учебники никогда не пишутся так, чтобы предлагать что-то близкое к этим уровням ясности и интуиции.
Джереми Рэдклифф
Я думаю, что ссылка на определение вероятности в этом примере может быть полезной
baxx
1
@Baxx опасно использовать сарказм в комментариях, потому что недостаточно места, что позволило нам сделать это вежливо и элегантно. Поэтому, как правило, не стоит полагать, что комментарий является саркастичным, если он явно не говорит вам об этом. Просто предположите, что комментарии предназначены, чтобы помочь вам. Если бы вы просто следили за первым попаданием в моем поиске, я думаю, что на ваши вопросы ответят.
whuber
44

Прежде чем коснуться этой темы, я всегда проверяю, чтобы ученики были довольны переходом между процентами, десятичными числами, коэффициентами и долями. Если они не совсем довольны этим, они могут очень быстро запутаться.

Мне нравится объяснять проверку гипотез впервые (и, следовательно, p-значения и статистику тестирования) в классическом чайном эксперименте Фишера. У меня есть несколько причин для этого:

(i) Я думаю, что прорабатывать эксперимент и определять термины по мере продвижения вперед имеет больший смысл, чем просто определить все эти термины для начала. (ii) Вам не нужно явно полагаться на распределения вероятностей, области под кривой и т. д., чтобы преодолеть ключевые моменты проверки гипотез. (iii) Это довольно разумно объясняет это нелепое понятие «как или более экстремальное, чем наблюдаемое» (iv) чем некоторые абстрактные теории. (v) Неважно, из какой дисциплины или предмета поступают студенты, они могут относиться к примеру чая (NB. Некоторые иностранные студенты испытывают трудности с этим своеобразным британским заведением чая с молоком.)

[Примечание: я изначально получил эту идею из замечательной статьи Денниса Линдли «Анализ экспериментальных данных: оценка чая и вина», в которой он демонстрирует, почему байесовские методы превосходят классические методы.]

История состоит в том, что Мюриэль Бристоль однажды в 1920-е годы посетила Фишера на экспериментальной станции Ротамстед, чтобы выпить чашку чая. Когда Фишер положил молоко в последнюю очередь, она пожаловалась, сказав, что она также может сказать, было ли молоко налито первым (или последним) и что она предпочла первое. Чтобы проверить это, он разработал свой классический чайный эксперимент, в котором Мюриель представлена ​​пара чайных чашек, и она должна определить, в какую из них молоко было добавлено первым. Это повторяется с шестью парами чайных чашек. Ее выбор - Правильно (R) или Неправильно (W), а ее результаты: RRRRRW.

6

(а) нулевая гипотеза (Мюриел угадывает) верна, и произошло событие малой вероятности, или,

(б) нулевая гипотеза ложна, и Мюриэль обладает дискриминационными способностями.

Значение p (или значение вероятности) - это вероятность наблюдения этого результата (RRRRRW), учитывая, что нулевая гипотеза верна - это малая вероятность, упомянутая в (a) выше. В данном случае это 0,016. Поскольку события с малой вероятностью происходят редко (по определению), ситуация (б) может быть более предпочтительным объяснением того, что произошло, чем ситуация (а). Когда мы отвергаем нулевую гипотезу, мы фактически принимаем противоположную гипотезу, которую мы называем альтернативной гипотезой. В этом примере Мюриэль обладает дискриминационными способностями альтернативной гипотезы.

Важным соображением является то, что мы классифицируем как «малую» вероятность? В какой момент мы готовы сказать, что событие маловероятно? Стандартный контрольный показатель составляет 5% (0,05), и это называется уровнем значимости. Когда значение p меньше уровня значимости, мы отвергаем нулевую гипотезу как ложную и принимаем нашу альтернативную гипотезу. Обычно говорят, что результат является «значимым», когда значение p меньше уровня значимости, то есть когда вероятность того, что мы наблюдали происходящее при нулевой гипотезе, истинна, меньше, чем наша точка отсечения. Важно понимать, что использование 5% является полностью субъективным (как и использование других общих уровней значимости 1% и 10%).

Фишер понял, что это не работает; каждый возможный исход с одной неправильной парой в равной степени наводил на мысль о дискриминационных способностях. Следовательно, соответствующая вероятность для ситуации (а), приведенной выше, составляет 6 (0,5) ^ 6 = 0,094 (или 6/64), что в настоящее время незначительно при уровне значимости 5%. Чтобы преодолеть это, Фишер утверждал, что если 1 ошибка в 6 считается доказательством дискриминирующих способностей, то также не должно быть ошибок, т.е. результаты, которые более сильно указывают на дискриминационные полномочия, чем наблюдаемая, должны учитываться при вычислении p-значения. Это привело к следующей поправке к мотивировке:

(а) нулевая гипотеза (Мюриел угадывает) верна, и вероятность событий как или более экстремальных, чем наблюдаемая, мала, или

(б) нулевая гипотеза ложна, и Мюриэль обладает дискриминационными способностями.

Вернемся к нашему эксперименту с чаем, и мы обнаружили, что значение p при этой установке составляет 7 (0,5) ^ 6 = 0,109, что все еще незначительно при 5% -ном пороге.

Затем я заставляю студентов работать с некоторыми другими примерами, такими как подбрасывание монеты, чтобы выяснить, является ли монета честной. Это дает представление о концепциях нулевой / альтернативной гипотезы, p-значениях и уровнях значимости. Затем мы перейдем к случаю непрерывной переменной и введем понятие тест-статистики. Поскольку мы уже рассмотрели нормальное распределение, стандартное нормальное распределение и z-преобразование по глубине, это всего лишь вопрос объединения нескольких концепций.

Помимо расчета статистики тестов, значений p и принятия решения (значимого / не значимого), я заставляю студентов работать с опубликованными работами для заполнения игры пропущенных пробелов.

Грэм Куксон
источник
2
Я знаю, что несколько оживляю очень старую ветку, но здесь все идет ... Мне очень понравился твой ответ, но я скучаю по части t-значения в ней :( Не могли бы вы использовать приведенные примеры, чтобы поговорить об этом? Никто не ответил о части t-теста
Sosi
@ Sosi Это, вероятно, потому что р-значения гораздо более общие, чем т-значения. Это все равно что задавать вопрос об автомобилях, а затем о тормозах Ford Fiesta.
предположения
2
ppp
27

Никакие словесные объяснения или расчеты на самом деле не помогли мне понять на инстинктивном уровне, что такое p-значения, но это действительно привлекло мое внимание, когда я прошел курс, который включал симуляцию. Это дало мне возможность на самом деле увидеть данные, сгенерированные нулевой гипотезой, и построить график средств / и т.д. смоделированных выборок, затем посмотрите, где статистика моего образца упала на это распределение.

Я думаю, что ключевым преимуществом этого является то, что это позволяет студентам на минуту забыть о математических и тестовых распределениях статистики и сосредоточиться на концепциях под рукой. Конечно, это требует , чтобы я узнать , как смоделировать этот материал, который может вызвать проблемы для совершенно другого набора студентов. Но это сработало для меня, и я использовал симуляцию бесчисленное количество раз, чтобы помочь с большим успехом объяснить статистику другим (например, «Вот как выглядят ваши данные; именно так выглядит распределение Пуассона с наложением. Вы уверены, что хотите?» сделать пуассоновскую регрессию? ").

Это не совсем отвечает на вопросы, которые вы задали, но для меня, по крайней мере, это сделало их тривиальными.

Мэтт Паркер
источник
10
Я полностью согласен с использованием симуляции для объяснения этого. Но только небольшая заметка о приведенном в конце примере: я считаю, что людям (а не только студентам) трудно отличить какое-либо конкретное предположение о распределении, например, о пуассоне, между незначительно распределенным пуассоном и условно распределенным пуассоном. Поскольку для модели регрессии имеет значение только последнее, множество значений зависимых переменных, которые не являются пуассоновскими, не обязательно должны быть поводом для беспокойства.
сопряженный
1
Я должен признаться, что я этого не знал. Я очень ценю ваши комментарии по поводу этого сайта за последние несколько дней вашего членства - надеюсь, вы останетесь здесь.
Мэтт Паркер
@MattParker Знаете ли вы какие-либо учебные ресурсы, ориентированные на использование симуляции для развития понимания? Или это всего лишь случай объединения некоторых сценариев Python / R и запуска множества тестов?
baxx
1
@baxx [Сайт «Теории видения» Даниэля Кунина] (Students.brown.edu/seeing-theory/) имеет несколько интересных инструментов для этого, но он все еще находится в стадии разработки. В противном случае, да, я в основном просто экспериментировал со встроенными инструментами R для моделирования - используя их, чтобы доказать себе, как работает какой-либо метод, или посмотреть, что произойдет, если предиктор будет заменен случайной переменной и т. Д. Извините, Хотел бы я знать о лучших ресурсах для этого!
Мэтт Паркер
@MattParker круто спасибо. Да - немного курицы и яйца в этом, чтобы построить эксперименты, вам (я полагаю?) Нужно, по крайней мере, получить достаточно, чтобы написать их. Не беспокойтесь ..... Только что проверил сайт, на который вы
ссылались
16

Хорошим определением p-значения является «вероятность соблюдения тестовой статистики, по крайней мере, такой же, как и та, которая рассчитывается при условии, что нулевая гипотеза верна».

Проблема в том, что для этого требуется понимание «статистики теста» и «нулевой гипотезы». Но это легко донести. Если нулевая гипотеза верна, обычно что-то вроде «параметр из совокупности A равен параметру из совокупности B», и вы вычисляете статистику для оценки этих параметров, какова вероятность увидеть статистику теста, которая говорит: «они это разные"?

Например, если монета справедлива, какова вероятность, что я увижу 60 голов из 100 бросков? Это проверяет нулевую гипотезу: «монета справедлива» или «p = .5», где p - вероятность головок.

Тестовой статистикой в ​​этом случае будет количество голов.

Теперь я предполагаю, что то, что вы называете «t-значением», является общей «тестовой статистикой», а не значением из «t-распределения». Это не одно и то же, и термин «t-значение» (не обязательно) широко используется и может ввести в заблуждение.

То, что вы называете «t-значением», вероятно, то, что я называю «тестовой статистикой». Чтобы вычислить p-значение (помните, это просто вероятность), вам нужно распределение и значение, которое нужно включить в это распределение, которое будет возвращать вероятность. Как только вы это сделаете, вероятность, которую вы вернете, будет вашим p-значением. Вы можете видеть, что они связаны, потому что при одном и том же распределении разные тестовые статистические данные будут возвращать разные p-значения. Более экстремальные тестовые статистические данные будут возвращать более низкие p-значения, что будет лучше указывать на то, что нулевая гипотеза неверна.

Я проигнорировал проблему односторонних и двусторонних р-значений здесь.

Baltimark
источник
11

Представьте, что у вас есть сумка, содержащая 900 черных шариков и 100 белых, т.е. 10% шариков - белые. Теперь представьте, что вы берете 1 мрамор, смотрите на него и записываете его цвет, вынимаете другой, записываете его цвет и т. Д. И делаете это 100 раз. В конце этого процесса у вас будет число для белого мрамора, которое, в идеале, мы ожидаем равным 10, то есть 10% от 100, но на самом деле может быть 8, или 13 или что-то еще просто из-за случайности. Если вы повторите этот эксперимент с изъятием 100 мраморов много-много раз, а затем построите гистограмму числа белых шариков, нарисованных за один эксперимент, вы обнаружите, что у вас будет Кривая Колокола с центром около 10.

Это соответствует вашей 10% -ной гипотезе: с любым мешком, содержащим 1000 шариков, из которых 10% белого цвета, если вы случайно выберете 100 шариков, вы найдете 10 белых шариков в выборе, дайте или возьмите 4 или около того. Р-значение - это все, что «дать или взять 4 или около того». Допустим, ссылаясь на ранее созданную кривую колокольчиков, вы можете определить, что менее чем в 5% случаев вы будете получать 5 или менее белых шариков, а еще на <5% времени приходится 15 или более белых шариков, то есть> 90% от ваш выбор из 100 мраморов будет содержать от 6 до 14 белых шариков включительно.

Теперь предположим, что кто-то положил мешок из 1000 мраморов с неизвестным количеством белого мрамора в нем, и у нас есть инструменты, чтобы ответить на эти вопросы.

я) Есть ли менее 100 белых шариков?

II) Есть ли более 100 белых шариков?

iii) Содержит ли сумка 100 белых шариков?

Просто выньте 100 шариков из сумки и посчитайте, сколько из этого образца белого цвета.

а) Если в образце от 6 до 14 белых, вы не можете отвергнуть гипотезу о том, что в сумке 100 белых шариков, и соответствующие значения р для 6–14 будут> 0,05.

б) Если в образце 5 или менее белых, вы можете отвергнуть гипотезу о том, что в сумке 100 белых шариков и соответствующие значения p для 5 или менее будут <0,05. Можно ожидать, что в сумке будет <10% белого мрамора.

c) Если в образце 15 или более белых, вы можете отвергнуть гипотезу о том, что в сумке 100 белых шариков и соответствующие значения p для 15 или более будут <0,05. Можно ожидать, что в сумке будет> 10% белого мрамора.

В ответ на комментарий Baltimark

Учитывая приведенный выше пример, примерно:

4,8% вероятности получить 5 белых шаров или меньше

1,85% шанс 4 или меньше

0,55% вероятности 3 или меньше

0,1% шанс 2 или меньше

6,25% вероятности 15 или более

3.25% шанс 16 или более

1,5% шанс 17 или более

0,65% вероятности 18 или более

0,25% вероятности 19 или более

0,1% шанс 20 или более

0,05% вероятности 21 или более

Эти числа были оценены из эмпирического распределения, сгенерированного простой подпрограммой Монте-Карло в R и результирующими квантилями распределения выборки.

Чтобы ответить на исходный вопрос, предположим, что вы рисуете 5 белых шаров, существует лишь приблизительно 4,8% вероятности того, что если в 1000-мраморном мешке действительно содержится 10% белых шаров, вы вытащите только 5 белых в образце из 100. Это соответствует значению ap <0,05. Теперь вам нужно выбирать между

i) На самом деле в сумке 10% белых шаров, и мне просто «не повезло» нарисовать так мало

или же

II) Я нарисовал так мало белых шаров, что на самом деле не может быть 10% белых шаров (отвергнуть гипотезу о 10% белых шаров)

babelproofreader
источник
Во-первых, это просто большой пример, который не объясняет понятия p-значения и test-statistics. Во-вторых, вы просто утверждаете, что если вы получаете менее 5 или более 15 белых шариков, вы отвергаете нулевую гипотезу. Из какого распределения вы рассчитываете эти вероятности? Это может быть аппроксимировано с нормальным dist. в центре 10, со стандартным отклонением 3. Ваши критерии отклонения недостаточно строги.
Балтимарк,
Я бы согласился, что это всего лишь пример, и я действительно выбрал номера 5 и 15 из воздуха для иллюстративных целей. Когда у меня будет время, я опубликую второй ответ, который, я надеюсь, будет более полным.
babelproofreader
10

То, что p-значение не говорит вам, так это то, насколько вероятно, что нулевая гипотеза верна. В рамках традиционной (Fisher) системы тестирования значимости мы сначала вычисляем вероятность наблюдения данных, предполагая, что нулевая гипотеза верна, это p-значение. Интуитивно кажется разумным предположить, что нулевая гипотеза, вероятно, неверна, если данные достаточно маловероятны для наблюдения при нулевой гипотезе. Это вполне разумно. Статистики традиционно используют порог и «отклоняют нулевую гипотезу на уровне значимости 95%», если (1 - p)> 0,95; однако это просто соглашение, которое оказалось разумным на практике - это не означает, что существует менее 5% вероятности того, что нулевая гипотеза неверна (и, следовательно, 95% вероятность того, что альтернативная гипотеза верна).

Представление функции f (), которая отображает значение p на вероятность того, что альтернативная гипотеза верна. Было бы разумно утверждать, что эта функция строго убывает (так что, чем выше вероятность наблюдений при нулевой гипотезе, тем менее вероятно, что альтернативная гипотеза верна), и что она дает значения от 0 до 1 (поскольку она дает оценку вероятности). Однако это все, что мы знаем о f (), поэтому, хотя существует связь между p и вероятностью того, что альтернативная гипотеза верна, она не откалибрована. Это означает, что мы не можем использовать p-значение для количественного определения правдоподобия нулевых и альтернативных гипотез.

Предостерегающий лектор: на самом деле не в частых рамках говорить о вероятности того, что гипотеза верна, поскольку она не является случайной величиной - она ​​либо истинна, либо нет. Поэтому, где я говорил о вероятности истинности гипотезы, я косвенно перешел к байесовской интерпретации. Неправильно смешивать байесовский и частый, однако всегда есть соблазн сделать это, поскольку мы действительно хотим количественно определить относительную правдоподобность / вероятность гипотез. Но это не то, что обеспечивает p-значение.

Дикран Сумчатый
источник
7

В статистике никогда нельзя сказать, что что-то абсолютно точно, поэтому статистики используют другой подход, чтобы оценить, верна ли гипотеза или нет. Они пытаются отклонить все другие гипотезы, которые не поддерживаются данными.

Для этого статистические тесты имеют нулевую гипотезу и альтернативную гипотезу. Значение p, полученное в результате статистического теста, является вероятностью результата, учитывая, что нулевая гипотеза была верной. Вот почему мы хотим маленькие значения р. Чем они меньше, тем менее вероятным будет результат, если нулевая гипотеза верна. Если значение p достаточно мало (т. Е. Маловероятно, чтобы результат имел место, если нулевая гипотеза была верна), тогда нулевая гипотеза отклоняется.

Таким образом, нулевые гипотезы могут быть сформулированы и впоследствии отвергнуты. Если нулевая гипотеза отклонена, вы принимаете альтернативную гипотезу как лучшее объяснение. Просто помните, что альтернативная гипотеза никогда не бывает достоверной, поскольку нулевая гипотеза могла бы случайно привести к результатам.

DaRob
источник
Pr(Tt|H0)Pr(T=t|H0)
5

Я немного неуверен, чтобы возродить старую тему, но я прыгнул отсюда , поэтому я публикую это как ответ на вопрос в ссылке.

Значение p является конкретным термином, здесь не должно быть места для недопонимания. Но, как-то мистично, что разговорные переводы определения p-значения приводят ко многим различным ошибочным интерпретациям. Я думаю, что корень проблемы заключается в использовании фраз «по крайней мере, столь же неблагоприятных для нулевой гипотезы» или «по крайней мере, столь же экстремальных, как тот, что в ваших выборочных данных» и т. Д.

Например, Википедия говорит

... p-значение - это вероятность получения наблюдаемых результатов выборки (или более экстремального результата), когда нулевая гипотеза действительно верна.

p

Я думаю, что лучше оставить «более экстремальный результат» чем-то вроде косвенного речевого акта . Итак, мое мнение

Значение p - это вероятность увидеть то, что вы видите в «воображаемом мире», где нулевая гипотеза верна.

xμ0=20N(20,1)

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

t0=nX¯μ0s

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

|t0|t0t(9)

pvalue=Pr(|t0|2.97)=0.01559054
2*(1 - pt(2.974405, 9))
#[1] 0.01559054

Поскольку значение p мало, очень маловероятно, что образец xбыл бы взят в предположенном мире. Таким образом, мы приходим к выводу, что весьма маловероятно, что предполагаемый мир действительно был реальным миром.

Khashaa
источник
2
+1, но когда вы пишете «вероятность увидеть то, что вы видите» и опускаете «более экстремальную» часть, это предложение становится строго говоря ложным (и потенциально вводящим в заблуждение, даже если, возможно, менее запутанным). Это не вероятность увидеть то, что вы видите (обычно это ноль). Это вероятность увидеть то, что вы видите "или более экстремально". Несмотря на то, что это может быть немного запутанным для многих, оно все же имеет решающее значение (и можно бесконечно спорить о степени субъективности, которая скрывается за этой «более экстремальной» формулировкой).
амеба
@amoeba Я подумал, что, если предоставить адекватный пример, он может служить прокси для «получения наблюдаемых результатов выборки (или более экстремального результата)». Может быть, нужна лучшая формулировка.
Хашаа
1
Я собирался сделать то же наблюдение, что и @amoeba; «или более экстремальная» часть хорошо обрабатывается на примере в студенческих высотах и ​​ответах на чаепитие, но я не думаю, что какие-либо ответы в этой теме натолкнулись на четкое общее объяснение этого, в частности, на то, которое охватывает различные альтернативные гипотезы. Я согласен с этим ответом, предполагая, что «или более экстремальная» часть является концептуальным камнем преткновения для многих студентов.
Серебряная рыбка
@Silverfish: и не только студенты. Как много я читал рантов Байеса против частых, которые обсуждают проблему субъективности / объективности этого «более экстремального» бита!
амеба
1
@ Серебро Я согласен с вашей критикой и опубликовал ответ, пытаясь ответить на него. «Или более экстремальный» - это суть вопроса.
whuber
4

Я считаю полезным следовать последовательности, в которой вы объясняете концепции в следующем порядке: (1) Оценка z и пропорции выше и ниже оценки z в предположении нормальной кривой. (2) Понятие распределения выборки и оценка z для данной выборки означают, когда известно стандартное отклонение популяции (и, следовательно, критерий z для одной выборки) (3) t-критерий для одной выборки и вероятность выборочное среднее значение, когда стандартное отклонение населения неизвестно (изобилуют историями о секретной личности определенного промышленного статистика и почему Гиннесс хорош для статистики). (4) t-критерий для двух выборок и выборочное распределение средних различий. Легкость, с которой начинающие студенты понимают критерий Стьюдента, во многом связана с тем фундаментом, который заложен при подготовке к этой теме.

/ * Инструктор режима ужаса студентов отключен * /

СтатистикаДок Консалтинг
источник
4

Я также нашел, что симуляции полезны в обучении.

nN(μ,1)σ2=1H0:μ=μ0

ttstat:=n(X¯μ0)N(0,1)H0pΦ(tstat)pnorm(tstat)

N(μ0,1)μ0=2nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)
Кристоф Ханк
источник
0

Что означает «р-значение» по отношению к проверяемой гипотезе?

В онтологическом смысле (что есть истина?) Это ничего не значит . Любое тестирование гипотез основано на непроверенных предположениях . Обычно это часть самого теста, но также и часть любой модели, которую вы используете (например, в регрессионной модели). Так как мы просто предполагаем это, мы не можем знать, является ли причина, по которой значение p ниже нашего порога, в том, что ноль равен false. Это нелогичное заключение вывести безоговорочно , что из - за низкое значение р , мы должны отвергнуть нуль. Например, что-то в модели может быть не так.

В эпистемологическом смысле (чему мы можем научиться?) Это что-то значит . Вы получаете знания при условии, что непроверенные предпосылки верны. Поскольку (по крайней мере, до сих пор) мы не можем доказать каждое здание реальности, все наши знания будут обязательно условными. Мы никогда не доберемся до «правды».

luchonacho
источник
-1

Я думаю, что примеры с мрамором, монетами или измерением высоты могут быть полезны для практики математики, но они не годятся для построения интуиции. Студенты колледжа любят задавать вопросы обществу, верно? Как насчет использования политического примера?

Скажем, политический кандидат провел кампанию, обещая, что некоторая политика поможет экономике. Она была избрана, она приняла политику, и через 2 года экономика переживает бум. Она собирается на переизбрание и утверждает, что ее политика является причиной всеобщего процветания. Вы должны переизбрать ее?

Вдумчивый гражданин должен сказать: «Хорошо, правда, что экономика процветает, но можем ли мы действительно отнести это к вашей политике?» Чтобы по-настоящему ответить на этот вопрос, мы должны рассмотреть вопрос о том, "справилась бы ли экономика за последние два года без нее?" Если ответ «да» (например, экономика переживает бум из-за какого-то нового, не связанного с этим технологического развития), тогда мы отвергаем объяснение данных политиком.

То есть, чтобы проверить одну гипотезу (политика помогла экономике), мы должны построить модель мира, в которой эта гипотеза является нулевой (политика никогда не применялась). Затем мы сделаем прогноз по этой модели. Мы называем вероятность наблюдения этих данных в этом альтернативном мире p-значением . Если значение р слишком велико, гипотеза нас не убеждает - политика ничего не меняет. Если значение р низкое, то мы доверяем гипотезе - политика была существенной.

cgreen
источник
1
Я не согласен с тем, что p определяется как «Мы ​​называем вероятность наблюдения этих данных в этом альтернативном мире p-значением», а также силу сделанного вывода (особенно неспособность отклонить нуль).
Серебряная рыба
@ Silverfish Не могли бы вы уточнить? Вероятно, было бы правильнее назвать значение р вероятностью того, что это наблюдение ИЛИ будет более экстремальным. Но, похоже, у вас есть более глубокая критика.
cgreen
1
Поскольку в первоначальном вопросе спрашивалось, что такое p-значение, я подумал, что ясно дать понять это определение. Просто сказать «более экстремальный» само по себе не очень полезно, если не объяснить, что может означать «более экстремальный» - это слабость большинства ответов в этой теме, я думаю. Только ответ whuber и «чайный тест», кажется, действительно объясняют, почему «более экстремальный» тоже имеет значение.
Серебряная рыба
Я также чувствовал, что ваши выводы сформулированы слишком сильно. Если мы отвергаем нуль, у нас есть серьезные доказательства против него, но мы не знаем, что это ложь. Когда мы не можем отклонить нулевое значение, это, конечно, не означает, что нулевое значение является истинным (хотя это вполне может быть). В качестве более общего комментария я чувствую, что тест, который вы описываете в довольно абстрактных терминах, вряд ли будет понятен учащемуся, который только учится выполнять тест. Отсутствие четко определенной статистики теста не совсем соответствует исходному вопросу о том, как интерпретировать t- статистику .
Серебряная рыба
Особенностью этого ответа, который мне очень нравится, является четкое объяснение того, что значения p вычисляются с использованием нулевой модели, даже если мы (субъективно) не считаем нулевую модель действительно верной. Я думаю, что статистика тестов фактов, рассчитанная по модели, является ключевым моментом, с которым сталкиваются многие студенты.
Серебряная рыба
-1

p

pX

0c1,FX|H0(inf{x:FX|H0(x)c})=c
FX|H0XH0

X

  1. p[0,1]
  2. [0,1]p

p

nalzok
источник
P
@whuber Спасибо за вклад. Я отредактировал определение, и теперь оно должно иметь больше смысла!
Нальзок
1
X[0,1].
(θ,θ+1)θR,θ=0,X=(X1,,Xn).X(X)=X1.[0,1]H0:n=1X1=2:2
-4

Значение p не так таинственно, как об этом думает большинство аналитиков. Это способ не вычислять доверительный интервал для t-теста, а просто определять уровень достоверности, с которым нулевая гипотеза может быть отклонена.

ИЛЛЮСТРАЦИИ. Вы запускаете тест. Значение p составляет 0,1866 для Q-переменной, 0,0023 для R-переменной. (Они выражены в%).

Если вы проводите тестирование с уровнем достоверности 95%, чтобы отклонить нулевой гипо;

для Q: 100-18,66 = 81,34%

для R: 100-0,23 = 99,77%.

При уровне достоверности 95% Q дает уверенность 81,34% для отказа. Это падает ниже 95% и является недопустимым. ПРИНЯТЬ НУЛЬ.

R дает 99,77% уверенности, чтобы отклонить ноль. Значительно выше желаемого 95%. Таким образом, мы отвергаем нуль.

Я только что проиллюстрировал чтение значения p через «обратный способ» его измерения до уровня достоверности, при котором мы отвергаем нулевую гипо.

dytchay
источник
6
QR
@ Cardinal указывает на важный момент. Вы не собираетесь принимать ноль.
Патрик Куломб
-8

****** Значение p при проверке гипотезы измеряет чувствительность теста. Чем ниже значение p, тем выше чувствительность. если уровень значимости установлен равным 0,05, значение р 0,0001 указывает на высокую вероятность правильности результатов теста ******

DR.HKLAKSHMANRAO
источник
6
-1 Это явно не так. Вы можете сначала прочитать ответы с более высоким рейтингом.
Момо