Пройдя курс статистики и затем пытаясь помочь сокурсникам, я заметил, что один предмет, который вызывает много шума, - это интерпретация результатов статистических проверок гипотез. Кажется, что студенты легко учатся выполнять вычисления, требуемые данным тестом, но зацикливаются на интерпретации результатов. Многие компьютеризированные инструменты сообщают результаты теста в терминах «значений p» или «t значений».
Как бы вы объяснили студентам колледжа, проходящим первый курс по статистике, следующие моменты:
Что означает «р-значение» по отношению к проверяемой гипотезе? Есть ли случаи, когда нужно искать высокое p-значение или низкое p-значение?
Какова связь между p-значением и t-значением?
hypothesis-testing
p-value
interpretation
intuition
canonical-question
остроносая плоскодонная шлюпка
источник
источник
Ответы:
Понимание значенияп
Предположим, вы хотите проверить гипотезу о том, что средний рост студентов мужского пола в вашем университете составляет футов дюймов. Вы собираете высоты учеников, выбранных случайным образом, и вычисляете среднее значение выборки (скажем, оно составляет футов дюймов). Используя соответствующую формулу / статистическую процедуру, вы вычисляете значение для вашей гипотезы и говорите, что оно оказалось равным .7 100 5 9 р 0,065 7 100 5 9 п 0,06
Чтобы правильно интерпретировать , мы должны помнить несколько вещей:р = 0,06
Первым шагом при проверке классической гипотезы является предположение о том, что рассматриваемая гипотеза верна. (В нашем контексте мы предполагаем, что истинная средняя высота составляет футов дюймов.)75 7
Представьте себе, что вы выполняете следующий расчет: Вычислите вероятность того, что среднее значение выборки превышает футов дюймов, предполагая, что наша гипотеза действительно верна (см. Пункт 1).95 9
Другими словами, мы хотим знать
Вычисление на шаге 2 - это то, что называется значением. Следовательно, значение будет означать, что если бы нам пришлось повторять наш эксперимент много-много раз (каждый раз, когда мы выбираем студентов случайным образом и вычисляли среднее значение по выборке), то в случаях из мы могли бы ожидать увидеть образец означает больше или равно футов дюймов.р 0,06 100 6 100 5 9p p 0.06 100 6 100 5 9
Учитывая вышеизложенное понимание, должны ли мы по-прежнему придерживаться нашего предположения о том, что наша гипотеза верна (см. Шаг 1)? Ну, а означает, что произошло одно из двух:p=0.06
или же
Традиционный способ выбора между (A) и (B) заключается в выборе произвольного отсечения для . Мы выбираем (A), если и (B), если .р > 0,05 р < 0,05p p>0.05 p<0.05
источник
Диалог между учителем и вдумчивым учеником
Смиренно утверждал, что в этой теме до сих пор использовалось недостаточно мелков. Краткое иллюстрированное резюме появляется в конце.
Ученик : Что означает р-значение? Многие люди, похоже, согласны с тем, что мы «увидим, что среднее значение выборки больше или равно» статистике или это «вероятность наблюдения этого результата ... учитывая, что нулевая гипотеза верна» или где «статистика моей выборки» упал на [смоделированное] распределение " и даже " вероятность наблюдения тестовой статистики, по крайней мере, такой же, как та, которая рассчитывается при условии, что нулевая гипотеза верна " .
Учитель : При правильном понимании все эти утверждения верны во многих обстоятельствах.
Студент : я не понимаю, насколько они актуальны. Разве вы не учили нас, что мы должны сформулировать нулевую гипотезу и альтернативную гипотезу H A ? Как они вовлечены в эти идеи "больше или равно" или "по крайней мере, настолько большие" или очень популярные "более экстремальные"?H0 HA
Учитель : Поскольку это может показаться сложным в целом, поможет ли это нам исследовать конкретный пример?
Студент : Конечно. Но, пожалуйста, сделайте это реалистичным, но простым, если можете.
Учитель : Эта теория проверки гипотез исторически началась с необходимости астрономов анализировать ошибки наблюдений, так что как насчет того, чтобы начать там? Однажды я просматривал некоторые старые документы, где ученый описал свои усилия по уменьшению погрешности измерения в своем приборе. Он провел много измерений звезды в известном положении и записал их смещения до или после этого положения. Чтобы визуализировать эти смещения, он нарисовал гистограмму, которая - при небольшом сглаживании - выглядела так.
Ученик : Я помню, как работают гистограммы: вертикальная ось помечена как «Плотность», чтобы напомнить мне, что относительные частоты измерений представлены областью, а не высотой.
Учитель : Это верно. «Необычное» или «экстремальное» значение будет находиться в регионе с довольно небольшой площадью. Вот мелок. Как вы думаете, вы могли бы раскрасить в регионе, площадь которого составляет только одну десятую от общего числа?
Студент : Конечно; это просто. [Цвета на рисунке.]
Учитель : очень хорошо! Для меня это примерно 10% площади. Помните, однако, что единственные области на гистограмме, которые имеют значение, это те, которые находятся между вертикальными линиями: они представляют вероятность или вероятность того, что смещение будет находиться между этими линиями на горизонтальной оси. Это означает, что вам нужно раскрасить все до дна, и это будет больше половины площади, не так ли?
Студент : О, я вижу. Дай мне попробовать снова. Я хочу раскрасить там, где кривая действительно низкая, не так ли? Это самый низкий на двух концах. Нужно ли раскрашивать только в одной области или можно разбить ее на несколько частей?
Учитель : Использование нескольких частей - умная идея. Где бы они были?
Студент (указывая): здесь и здесь. Поскольку этот карандаш не очень острый, я использовал ручку, чтобы показать вам линии, которые я использую.
Студент : это очень плохо. Но разве это не намного лучше, чем широкое распространение смещений в вашей фигуре?
Учитель : Продолжай, у тебя все хорошо.
Ученик : И альтернатива в том, что новые измерения будут менее распространены, верно?
Учитель : очень хорошо! Не могли бы вы нарисовать мне картину того, как будет выглядеть гистограмма с меньшим разбросом? Вот еще одна копия первой гистограммы; Вы можете нарисовать поверх него в качестве ссылки.
Ученик (рисует): я использую ручку, чтобы наметить новую гистограмму, и я закрашиваю область под ней. Я сделал так, чтобы большая часть кривой была близка к нулю на горизонтальной оси, и поэтому большая часть ее области близка к (горизонтальному) значению нуля: вот что значит быть менее развернутым или более точным.
Студент : Думаю, меньше половины. Я вижу, что это проблема, но я не знаю, как это исправить. Что я должен делать?
Ученик : Понятно: вы вытянули его вертикально, чтобы его форма на самом деле не изменилась, но теперь красная область и серая область (включая часть под красным) равны.
Учитель : Верно. Вы смотрите на картину нулевой гипотезы (синим цветом, разбросаны) и части альтернативной гипотезы (красным цветом, с меньшим разбросом).
Студент : Что вы подразумеваете под «частью» альтернативы? Разве это не альтернативная гипотеза?
Учитель : статистика и грамматика, похоже, не смешиваются. :-) Серьезно, то, что они подразумевают под «гипотезой», обычно представляет собой целый большой набор возможностей. Здесь альтернатива (как вы уже говорили ранее) состоит в том, что измерения «менее разбросаны», чем раньше. Но насколько меньше ? Есть много возможностей. Здесь, позвольте мне показать вам еще один. Я нарисовал его желтыми черточками. Это между предыдущими двумя.
Ученик : Понятно: у вас может быть разное количество спреда, но вы не знаете заранее, насколько спред будет на самом деле. Но почему вы сделали смешную штриховку на этой картинке?
Учитель : Я хотел бы подчеркнуть, где и как отличаются гистограммы. Я заштриховал их серым цветом, где альтернативные гистограммы ниже нуля, и красным, где альтернативы выше .
Студент : Почему это имеет значение?
Учитель : Вы помните, как вы раскрасили первую гистограмму в обоих хвостах? [Просматривая документы.] Ах, вот оно. Давайте раскрасим эту картинку таким же образом.
Студент : Я помню: это крайние ценности. Я нашел места, где нулевая плотность была как можно меньше и окрашена в 10% площади.
Учитель : Расскажите мне об альтернативах в этих экстремальных областях.
Ученик : Трудно увидеть, потому что карандаш скрыл это, но похоже, что у альтернативы почти нет шансов оказаться в областях, которые я раскрасил. Их гистограммы направлены прямо против оси значений, и под ними нет места.
Учитель : Вам не нужно заходить так далеко. Вы можете просто сказать, какой район является самым большим?
Учитель : Вы хорошо разбираетесь в моделях, поэтому скажите мне: как измерительный прибор становится все более и более точным, что происходит с его гистограммой?
Учитель (продолжает): Не могли бы вы показать мне, где альтернативы, как правило, более вероятны, чем нулевые?
Студент (раскраска): Здесь, в середине, очевидно. И поскольку это больше не гистограммы, я думаю, что мы должны смотреть на высоты, а не на области, поэтому я просто отмечаю диапазон значений на горизонтальной оси. Но как я узнаю, сколько в середине цвета? Где я могу перестать красить?
Учитель : Там нет твердого правила. Все зависит от того, как мы планируем использовать наши выводы и насколько яростны скептики. Но сидеть сложа руки и думать о том, что вы сделали: теперь вы понимаете , что результаты с большим отношением правдоподобий являются доказательством для альтернативы и результаты с небольшими отношениями правдоподобий свидетельствуют против альтернативы. Что я попрошу вас сделать, так это раскрасить область, которая, насколько это возможно, имеет малую вероятность появления при нулевой гипотезе и относительно большую вероятность появления при альтернативах. Возвращаясь к первой раскрашенной вами диаграмме, еще в начале нашего разговора вы раскрасили два нулевых хвоста, потому что они были «экстремальными». Будут ли они делать хорошую работу?
Учитель : Что это представляет?
Ученик : Мы начали с того, что вы попросили меня нарисовать всего 10% площади под исходной гистограммой - той, которая описывает ноль. Так что теперь я нарисовал 10% области, где альтернативы кажутся более вероятными. Я думаю, что когда новое измерение в этой области, это говорит нам, что мы должны верить альтернативе.
Учитель : А как скептик должен реагировать на это?
Студент : Скептик никогда не должен признать, что он не прав, не так ли? Но я думаю, что его вера должна быть немного поколеблена. В конце концов, мы организовали его так, чтобы, хотя измерение могло быть внутри области, которую я только что нарисовал, оно имеет 10% -ный шанс быть там, когда значение равно нулю. И у него больше шансов быть там, когда альтернатива верна. Я просто не могу сказать вам, насколько больше этот шанс, потому что это будет зависеть от того, насколько ученый усовершенствовал аппарат. Я просто знаю, что это больше. Так что доказательства будут против скептика.
Учитель : Хорошо. Не могли бы вы подвести итог своему пониманию, чтобы нам было совершенно ясно, что вы узнали?
Студент : я узнал, что для сравнения альтернативных гипотез с нулевыми гипотезами мы должны сравнить их гистограммы. Мы делим плотности альтернатив на плотность нуля: это то, что вы назвали «отношением правдоподобия». Чтобы сделать хороший тест, я должен выбрать небольшое число, например 10%, или что-то еще, что может потрясти скептика. Затем я должен найти значения, в которых отношение правдоподобия максимально возможно, и раскрасить их до тех пор, пока 10% (или что-то еще) не будет окрашено.
Учитель : А как бы вы использовали эту раскраску?
Ученик : Как вы напомнили ранее, раскраска должна быть между вертикальными линиями. Значения (на горизонтальной оси), лежащие под окраской, свидетельствуют о нулевой гипотезе. Другие значения - ну, трудно сказать, что они могут значить, не рассматривая все гистограммы более подробно.
Студент : Это в той области, где я последний раз красился, так что я думаю, что ученый, вероятно, был прав, и аппарат действительно был улучшен.
Учитель : И последнее. Ваш вывод основывался на выборе 10% в качестве критерия или «размера» теста. Многие люди предпочитают использовать 5% вместо этого. Некоторые предпочитают 1%. Что вы могли бы им сказать?
Студент : Спасибо. Я не уверен, что я полностью все это понимаю, но вы дали мне много думать.
Учитель : Если вы хотите пойти дальше, взгляните на лемму Неймана-Пирсона . Вы, вероятно, готовы понять это сейчас.
конспект
источник
Прежде чем коснуться этой темы, я всегда проверяю, чтобы ученики были довольны переходом между процентами, десятичными числами, коэффициентами и долями. Если они не совсем довольны этим, они могут очень быстро запутаться.
Мне нравится объяснять проверку гипотез впервые (и, следовательно, p-значения и статистику тестирования) в классическом чайном эксперименте Фишера. У меня есть несколько причин для этого:
(i) Я думаю, что прорабатывать эксперимент и определять термины по мере продвижения вперед имеет больший смысл, чем просто определить все эти термины для начала. (ii) Вам не нужно явно полагаться на распределения вероятностей, области под кривой и т. д., чтобы преодолеть ключевые моменты проверки гипотез. (iii) Это довольно разумно объясняет это нелепое понятие «как или более экстремальное, чем наблюдаемое» (iv) чем некоторые абстрактные теории. (v) Неважно, из какой дисциплины или предмета поступают студенты, они могут относиться к примеру чая (NB. Некоторые иностранные студенты испытывают трудности с этим своеобразным британским заведением чая с молоком.)
[Примечание: я изначально получил эту идею из замечательной статьи Денниса Линдли «Анализ экспериментальных данных: оценка чая и вина», в которой он демонстрирует, почему байесовские методы превосходят классические методы.]
История состоит в том, что Мюриэль Бристоль однажды в 1920-е годы посетила Фишера на экспериментальной станции Ротамстед, чтобы выпить чашку чая. Когда Фишер положил молоко в последнюю очередь, она пожаловалась, сказав, что она также может сказать, было ли молоко налито первым (или последним) и что она предпочла первое. Чтобы проверить это, он разработал свой классический чайный эксперимент, в котором Мюриель представлена пара чайных чашек, и она должна определить, в какую из них молоко было добавлено первым. Это повторяется с шестью парами чайных чашек. Ее выбор - Правильно (R) или Неправильно (W), а ее результаты: RRRRRW.
(а) нулевая гипотеза (Мюриел угадывает) верна, и произошло событие малой вероятности, или,
(б) нулевая гипотеза ложна, и Мюриэль обладает дискриминационными способностями.
Значение p (или значение вероятности) - это вероятность наблюдения этого результата (RRRRRW), учитывая, что нулевая гипотеза верна - это малая вероятность, упомянутая в (a) выше. В данном случае это 0,016. Поскольку события с малой вероятностью происходят редко (по определению), ситуация (б) может быть более предпочтительным объяснением того, что произошло, чем ситуация (а). Когда мы отвергаем нулевую гипотезу, мы фактически принимаем противоположную гипотезу, которую мы называем альтернативной гипотезой. В этом примере Мюриэль обладает дискриминационными способностями альтернативной гипотезы.
Важным соображением является то, что мы классифицируем как «малую» вероятность? В какой момент мы готовы сказать, что событие маловероятно? Стандартный контрольный показатель составляет 5% (0,05), и это называется уровнем значимости. Когда значение p меньше уровня значимости, мы отвергаем нулевую гипотезу как ложную и принимаем нашу альтернативную гипотезу. Обычно говорят, что результат является «значимым», когда значение p меньше уровня значимости, то есть когда вероятность того, что мы наблюдали происходящее при нулевой гипотезе, истинна, меньше, чем наша точка отсечения. Важно понимать, что использование 5% является полностью субъективным (как и использование других общих уровней значимости 1% и 10%).
Фишер понял, что это не работает; каждый возможный исход с одной неправильной парой в равной степени наводил на мысль о дискриминационных способностях. Следовательно, соответствующая вероятность для ситуации (а), приведенной выше, составляет 6 (0,5) ^ 6 = 0,094 (или 6/64), что в настоящее время незначительно при уровне значимости 5%. Чтобы преодолеть это, Фишер утверждал, что если 1 ошибка в 6 считается доказательством дискриминирующих способностей, то также не должно быть ошибок, т.е. результаты, которые более сильно указывают на дискриминационные полномочия, чем наблюдаемая, должны учитываться при вычислении p-значения. Это привело к следующей поправке к мотивировке:
(а) нулевая гипотеза (Мюриел угадывает) верна, и вероятность событий как или более экстремальных, чем наблюдаемая, мала, или
(б) нулевая гипотеза ложна, и Мюриэль обладает дискриминационными способностями.
Вернемся к нашему эксперименту с чаем, и мы обнаружили, что значение p при этой установке составляет 7 (0,5) ^ 6 = 0,109, что все еще незначительно при 5% -ном пороге.
Затем я заставляю студентов работать с некоторыми другими примерами, такими как подбрасывание монеты, чтобы выяснить, является ли монета честной. Это дает представление о концепциях нулевой / альтернативной гипотезы, p-значениях и уровнях значимости. Затем мы перейдем к случаю непрерывной переменной и введем понятие тест-статистики. Поскольку мы уже рассмотрели нормальное распределение, стандартное нормальное распределение и z-преобразование по глубине, это всего лишь вопрос объединения нескольких концепций.
Помимо расчета статистики тестов, значений p и принятия решения (значимого / не значимого), я заставляю студентов работать с опубликованными работами для заполнения игры пропущенных пробелов.
источник
Никакие словесные объяснения или расчеты на самом деле не помогли мне понять на инстинктивном уровне, что такое p-значения, но это действительно привлекло мое внимание, когда я прошел курс, который включал симуляцию. Это дало мне возможность на самом деле увидеть данные, сгенерированные нулевой гипотезой, и построить график средств / и т.д. смоделированных выборок, затем посмотрите, где статистика моего образца упала на это распределение.
Я думаю, что ключевым преимуществом этого является то, что это позволяет студентам на минуту забыть о математических и тестовых распределениях статистики и сосредоточиться на концепциях под рукой. Конечно, это требует , чтобы я узнать , как смоделировать этот материал, который может вызвать проблемы для совершенно другого набора студентов. Но это сработало для меня, и я использовал симуляцию бесчисленное количество раз, чтобы помочь с большим успехом объяснить статистику другим (например, «Вот как выглядят ваши данные; именно так выглядит распределение Пуассона с наложением. Вы уверены, что хотите?» сделать пуассоновскую регрессию? ").
Это не совсем отвечает на вопросы, которые вы задали, но для меня, по крайней мере, это сделало их тривиальными.
источник
Хорошим определением p-значения является «вероятность соблюдения тестовой статистики, по крайней мере, такой же, как и та, которая рассчитывается при условии, что нулевая гипотеза верна».
Проблема в том, что для этого требуется понимание «статистики теста» и «нулевой гипотезы». Но это легко донести. Если нулевая гипотеза верна, обычно что-то вроде «параметр из совокупности A равен параметру из совокупности B», и вы вычисляете статистику для оценки этих параметров, какова вероятность увидеть статистику теста, которая говорит: «они это разные"?
Например, если монета справедлива, какова вероятность, что я увижу 60 голов из 100 бросков? Это проверяет нулевую гипотезу: «монета справедлива» или «p = .5», где p - вероятность головок.
Тестовой статистикой в этом случае будет количество голов.
Теперь я предполагаю, что то, что вы называете «t-значением», является общей «тестовой статистикой», а не значением из «t-распределения». Это не одно и то же, и термин «t-значение» (не обязательно) широко используется и может ввести в заблуждение.
То, что вы называете «t-значением», вероятно, то, что я называю «тестовой статистикой». Чтобы вычислить p-значение (помните, это просто вероятность), вам нужно распределение и значение, которое нужно включить в это распределение, которое будет возвращать вероятность. Как только вы это сделаете, вероятность, которую вы вернете, будет вашим p-значением. Вы можете видеть, что они связаны, потому что при одном и том же распределении разные тестовые статистические данные будут возвращать разные p-значения. Более экстремальные тестовые статистические данные будут возвращать более низкие p-значения, что будет лучше указывать на то, что нулевая гипотеза неверна.
Я проигнорировал проблему односторонних и двусторонних р-значений здесь.
источник
Представьте, что у вас есть сумка, содержащая 900 черных шариков и 100 белых, т.е. 10% шариков - белые. Теперь представьте, что вы берете 1 мрамор, смотрите на него и записываете его цвет, вынимаете другой, записываете его цвет и т. Д. И делаете это 100 раз. В конце этого процесса у вас будет число для белого мрамора, которое, в идеале, мы ожидаем равным 10, то есть 10% от 100, но на самом деле может быть 8, или 13 или что-то еще просто из-за случайности. Если вы повторите этот эксперимент с изъятием 100 мраморов много-много раз, а затем построите гистограмму числа белых шариков, нарисованных за один эксперимент, вы обнаружите, что у вас будет Кривая Колокола с центром около 10.
Это соответствует вашей 10% -ной гипотезе: с любым мешком, содержащим 1000 шариков, из которых 10% белого цвета, если вы случайно выберете 100 шариков, вы найдете 10 белых шариков в выборе, дайте или возьмите 4 или около того. Р-значение - это все, что «дать или взять 4 или около того». Допустим, ссылаясь на ранее созданную кривую колокольчиков, вы можете определить, что менее чем в 5% случаев вы будете получать 5 или менее белых шариков, а еще на <5% времени приходится 15 или более белых шариков, то есть> 90% от ваш выбор из 100 мраморов будет содержать от 6 до 14 белых шариков включительно.
Теперь предположим, что кто-то положил мешок из 1000 мраморов с неизвестным количеством белого мрамора в нем, и у нас есть инструменты, чтобы ответить на эти вопросы.
я) Есть ли менее 100 белых шариков?
II) Есть ли более 100 белых шариков?
iii) Содержит ли сумка 100 белых шариков?
Просто выньте 100 шариков из сумки и посчитайте, сколько из этого образца белого цвета.
а) Если в образце от 6 до 14 белых, вы не можете отвергнуть гипотезу о том, что в сумке 100 белых шариков, и соответствующие значения р для 6–14 будут> 0,05.
б) Если в образце 5 или менее белых, вы можете отвергнуть гипотезу о том, что в сумке 100 белых шариков и соответствующие значения p для 5 или менее будут <0,05. Можно ожидать, что в сумке будет <10% белого мрамора.
c) Если в образце 15 или более белых, вы можете отвергнуть гипотезу о том, что в сумке 100 белых шариков и соответствующие значения p для 15 или более будут <0,05. Можно ожидать, что в сумке будет> 10% белого мрамора.
В ответ на комментарий Baltimark
Учитывая приведенный выше пример, примерно:
4,8% вероятности получить 5 белых шаров или меньше
1,85% шанс 4 или меньше
0,55% вероятности 3 или меньше
0,1% шанс 2 или меньше
6,25% вероятности 15 или более
3.25% шанс 16 или более
1,5% шанс 17 или более
0,65% вероятности 18 или более
0,25% вероятности 19 или более
0,1% шанс 20 или более
0,05% вероятности 21 или более
Эти числа были оценены из эмпирического распределения, сгенерированного простой подпрограммой Монте-Карло в R и результирующими квантилями распределения выборки.
Чтобы ответить на исходный вопрос, предположим, что вы рисуете 5 белых шаров, существует лишь приблизительно 4,8% вероятности того, что если в 1000-мраморном мешке действительно содержится 10% белых шаров, вы вытащите только 5 белых в образце из 100. Это соответствует значению ap <0,05. Теперь вам нужно выбирать между
i) На самом деле в сумке 10% белых шаров, и мне просто «не повезло» нарисовать так мало
или же
II) Я нарисовал так мало белых шаров, что на самом деле не может быть 10% белых шаров (отвергнуть гипотезу о 10% белых шаров)
источник
То, что p-значение не говорит вам, так это то, насколько вероятно, что нулевая гипотеза верна. В рамках традиционной (Fisher) системы тестирования значимости мы сначала вычисляем вероятность наблюдения данных, предполагая, что нулевая гипотеза верна, это p-значение. Интуитивно кажется разумным предположить, что нулевая гипотеза, вероятно, неверна, если данные достаточно маловероятны для наблюдения при нулевой гипотезе. Это вполне разумно. Статистики традиционно используют порог и «отклоняют нулевую гипотезу на уровне значимости 95%», если (1 - p)> 0,95; однако это просто соглашение, которое оказалось разумным на практике - это не означает, что существует менее 5% вероятности того, что нулевая гипотеза неверна (и, следовательно, 95% вероятность того, что альтернативная гипотеза верна).
Представление функции f (), которая отображает значение p на вероятность того, что альтернативная гипотеза верна. Было бы разумно утверждать, что эта функция строго убывает (так что, чем выше вероятность наблюдений при нулевой гипотезе, тем менее вероятно, что альтернативная гипотеза верна), и что она дает значения от 0 до 1 (поскольку она дает оценку вероятности). Однако это все, что мы знаем о f (), поэтому, хотя существует связь между p и вероятностью того, что альтернативная гипотеза верна, она не откалибрована. Это означает, что мы не можем использовать p-значение для количественного определения правдоподобия нулевых и альтернативных гипотез.
Предостерегающий лектор: на самом деле не в частых рамках говорить о вероятности того, что гипотеза верна, поскольку она не является случайной величиной - она либо истинна, либо нет. Поэтому, где я говорил о вероятности истинности гипотезы, я косвенно перешел к байесовской интерпретации. Неправильно смешивать байесовский и частый, однако всегда есть соблазн сделать это, поскольку мы действительно хотим количественно определить относительную правдоподобность / вероятность гипотез. Но это не то, что обеспечивает p-значение.
источник
В статистике никогда нельзя сказать, что что-то абсолютно точно, поэтому статистики используют другой подход, чтобы оценить, верна ли гипотеза или нет. Они пытаются отклонить все другие гипотезы, которые не поддерживаются данными.
Для этого статистические тесты имеют нулевую гипотезу и альтернативную гипотезу. Значение p, полученное в результате статистического теста, является вероятностью результата, учитывая, что нулевая гипотеза была верной. Вот почему мы хотим маленькие значения р. Чем они меньше, тем менее вероятным будет результат, если нулевая гипотеза верна. Если значение p достаточно мало (т. Е. Маловероятно, чтобы результат имел место, если нулевая гипотеза была верна), тогда нулевая гипотеза отклоняется.
Таким образом, нулевые гипотезы могут быть сформулированы и впоследствии отвергнуты. Если нулевая гипотеза отклонена, вы принимаете альтернативную гипотезу как лучшее объяснение. Просто помните, что альтернативная гипотеза никогда не бывает достоверной, поскольку нулевая гипотеза могла бы случайно привести к результатам.
источник
Я немного неуверен, чтобы возродить старую тему, но я прыгнул отсюда , поэтому я публикую это как ответ на вопрос в ссылке.
Значение p является конкретным термином, здесь не должно быть места для недопонимания. Но, как-то мистично, что разговорные переводы определения p-значения приводят ко многим различным ошибочным интерпретациям. Я думаю, что корень проблемы заключается в использовании фраз «по крайней мере, столь же неблагоприятных для нулевой гипотезы» или «по крайней мере, столь же экстремальных, как тот, что в ваших выборочных данных» и т. Д.
Например, Википедия говорит
Я думаю, что лучше оставить «более экстремальный результат» чем-то вроде косвенного речевого акта . Итак, мое мнение
x
Поскольку значение p мало, очень маловероятно, что образец
x
был бы взят в предположенном мире. Таким образом, мы приходим к выводу, что весьма маловероятно, что предполагаемый мир действительно был реальным миром.источник
Я считаю полезным следовать последовательности, в которой вы объясняете концепции в следующем порядке: (1) Оценка z и пропорции выше и ниже оценки z в предположении нормальной кривой. (2) Понятие распределения выборки и оценка z для данной выборки означают, когда известно стандартное отклонение популяции (и, следовательно, критерий z для одной выборки) (3) t-критерий для одной выборки и вероятность выборочное среднее значение, когда стандартное отклонение населения неизвестно (изобилуют историями о секретной личности определенного промышленного статистика и почему Гиннесс хорош для статистики). (4) t-критерий для двух выборок и выборочное распределение средних различий. Легкость, с которой начинающие студенты понимают критерий Стьюдента, во многом связана с тем фундаментом, который заложен при подготовке к этой теме.
/ * Инструктор режима ужаса студентов отключен * /
источник
Я также нашел, что симуляции полезны в обучении.
pnorm(tstat)
nullMeans
источник
В онтологическом смысле (что есть истина?) Это ничего не значит . Любое тестирование гипотез основано на непроверенных предположениях . Обычно это часть самого теста, но также и часть любой модели, которую вы используете (например, в регрессионной модели). Так как мы просто предполагаем это, мы не можем знать, является ли причина, по которой значение p ниже нашего порога, в том, что ноль равен false. Это нелогичное заключение вывести безоговорочно , что из - за низкое значение р , мы должны отвергнуть нуль. Например, что-то в модели может быть не так.
В эпистемологическом смысле (чему мы можем научиться?) Это что-то значит . Вы получаете знания при условии, что непроверенные предпосылки верны. Поскольку (по крайней мере, до сих пор) мы не можем доказать каждое здание реальности, все наши знания будут обязательно условными. Мы никогда не доберемся до «правды».
источник
Я думаю, что примеры с мрамором, монетами или измерением высоты могут быть полезны для практики математики, но они не годятся для построения интуиции. Студенты колледжа любят задавать вопросы обществу, верно? Как насчет использования политического примера?
Скажем, политический кандидат провел кампанию, обещая, что некоторая политика поможет экономике. Она была избрана, она приняла политику, и через 2 года экономика переживает бум. Она собирается на переизбрание и утверждает, что ее политика является причиной всеобщего процветания. Вы должны переизбрать ее?
Вдумчивый гражданин должен сказать: «Хорошо, правда, что экономика процветает, но можем ли мы действительно отнести это к вашей политике?» Чтобы по-настоящему ответить на этот вопрос, мы должны рассмотреть вопрос о том, "справилась бы ли экономика за последние два года без нее?" Если ответ «да» (например, экономика переживает бум из-за какого-то нового, не связанного с этим технологического развития), тогда мы отвергаем объяснение данных политиком.
То есть, чтобы проверить одну гипотезу (политика помогла экономике), мы должны построить модель мира, в которой эта гипотеза является нулевой (политика никогда не применялась). Затем мы сделаем прогноз по этой модели. Мы называем вероятность наблюдения этих данных в этом альтернативном мире p-значением . Если значение р слишком велико, гипотеза нас не убеждает - политика ничего не меняет. Если значение р низкое, то мы доверяем гипотезе - политика была существенной.
источник
источник
Значение p не так таинственно, как об этом думает большинство аналитиков. Это способ не вычислять доверительный интервал для t-теста, а просто определять уровень достоверности, с которым нулевая гипотеза может быть отклонена.
ИЛЛЮСТРАЦИИ. Вы запускаете тест. Значение p составляет 0,1866 для Q-переменной, 0,0023 для R-переменной. (Они выражены в%).
Если вы проводите тестирование с уровнем достоверности 95%, чтобы отклонить нулевой гипо;
для Q: 100-18,66 = 81,34%
для R: 100-0,23 = 99,77%.
При уровне достоверности 95% Q дает уверенность 81,34% для отказа. Это падает ниже 95% и является недопустимым. ПРИНЯТЬ НУЛЬ.
R дает 99,77% уверенности, чтобы отклонить ноль. Значительно выше желаемого 95%. Таким образом, мы отвергаем нуль.
Я только что проиллюстрировал чтение значения p через «обратный способ» его измерения до уровня достоверности, при котором мы отвергаем нулевую гипо.
источник
****** Значение p при проверке гипотезы измеряет чувствительность теста. Чем ниже значение p, тем выше чувствительность. если уровень значимости установлен равным 0,05, значение р 0,0001 указывает на высокую вероятность правильности результатов теста ******
источник