Эта статья « Шансы, постоянно обновляемая» из NY Times привлекла мое внимание. Короче говоря, говорится, что
[Байесовская статистика] оказывается особенно полезной при решении сложных проблем, в том числе поисков, подобных той, которую береговая охрана использовала в 2013 году, чтобы найти пропавшего рыбака Джона Олдриджа (хотя пока не до сих пор в поиске рейса 370 Malaysia Airlines) ...... Байесовская статистика пронизывает все: от физики до исследований рака, от экологии до психологии ...
В этой статье также есть некоторые критические замечания о p-значении часто встречающегося, например:
Результаты обычно считаются «статистически значимыми», если значение р составляет менее 5 процентов. Но в этой традиции есть опасность, сказал Эндрю Гельман, профессор статистики в Колумбии. Даже если ученые всегда делали вычисления правильно - и они этого не делают, утверждает он, - принятие всего с p-значением 5 процентов означает, что один из 20 «статистически значимых» результатов - не что иное, как случайный шум.
Помимо вышесказанного, пожалуй, самая известная статья, критикующая p-значение, - «Научный метод: статистические ошибки» Реджины Нуццо из Nature , в котором обсуждалось множество научных вопросов, возникающих в связи с p-значением, таких как проблемы воспроизводимости, взлом p-значения и т. д.
Значения P, «золотой стандарт» статистической достоверности, не так надежны, как полагают многие ученые. ...... Возможно, худшей ошибкой является вид самообмана, для которого психолог Ури Симонсон из Университета Пенсильвании и его коллеги популяризировали термин P-хакерство; это также известно как выемка данных, слежка, лов рыбы, преследование значимости и двойное погружение. «P-хакерство», - говорит Симонсон, - «пробует несколько вещей, пока не получит желаемый результат» - даже неосознанно. ...... «Похоже, что это заключение было получено с помощью p-хакерства, авторы отказались от одного из условий, чтобы общее значение p было меньше 0,05», и «Она p-хакер, она всегда отслеживает данные во время их сбора ».
Другое дело, интересный сюжет, как следует отсюда , с комментарием о сюжете:
Независимо от того, насколько малым может быть ваш эффект, вы всегда можете выполнить тяжелую работу по сбору данных, чтобы преодолеть порог p <0,05. Пока исследуемый эффект не существует, p-значения просто измеряют, сколько усилий вы потратили на сбор данных.
Со всем выше, мои вопросы:
Что именно означает аргумент Эндрю Гельмана во второй цитате блока? Почему он интерпретировал 5-процентное значение p как «один из 20 статистически значимых результатов - это случайный шум»? Я не убежден, так как для меня p-значение используется для определения одного исследования. Его точка зрения связана с множественным тестированием.
Обновление: проверьте блог Эндрю Гельмана об этом: Нет, я этого не говорил! (Авторы @ Scortchi, @whuber).
Учитывая критику в отношении p-значения, а также учитывая, что существует множество информационных критериев, таких как AIC, BIC, Мэллоу для оценки значимости модели (следовательно, переменных), если мы не будем использовать p-значение для выбора переменных в все, но использовать эти критерии выбора модели?
- Есть ли хорошие практические рекомендации по использованию p-значения для статистического анализа, которые могут привести к более надежным результатам исследований?
Будет ли байесовская модель моделирования более эффективным способом, как утверждают некоторые статистики? В частности, будет ли байесовский подход с большей вероятностью разрешать ложные поиски или манипулировать проблемами с данными? Я также не убежден здесь, так как предварительный подход очень субъективен в байесовском подходе. Существуют ли какие-либо практические и общеизвестные исследования, которые показывают, что байесовский подход лучше, чем частичное р-значение, или, по крайней мере, в некоторых конкретных случаях?
Обновление: я был бы особенно заинтересован в том, есть ли случаи, когда байесовский подход более надежен, чем подход частого p-значения. Под «надежным» я подразумеваю байесовский подход с меньшей вероятностью манипулировать данными для получения желаемых результатов. Какие-либо предложения?
Обновление 9/9/2015
Просто заметил новости и подумал, что было бы хорошо выложить их сюда для обсуждения.
Психология журнала запрещает значения P
Спорный статистический тест наконец-то завершился, по крайней мере, в одном журнале. Ранее в этом месяце редакторы «Базовой и прикладной социальной психологии» (BASP) объявили, что журнал больше не будет публиковать статьи, содержащие значения P, поскольку статистика слишком часто использовалась для поддержки исследований более низкого качества.
Наряду с недавней статьей «Непостоянное значение P генерирует невоспроизводимые результаты» от Nature , о значении P.
Обновление 08.05.2016
Еще в марте Американская статистическая ассоциация (ASA) опубликовала заявления о статистической значимости и значениях p: «.... Заявление ASA предназначено для того, чтобы направить исследования в« эпоху после p <0,05 ».»
Это утверждение содержит 6 принципов, которые касаются неправильного использования значения p:
- P-значения могут указывать, насколько несовместимы данные с указанной статистической моделью.
- Значения P не измеряют вероятность того, что изученная гипотеза верна, или вероятность того, что данные были получены только по случайной случайности.
- Научные выводы и деловые или политические решения не должны основываться только на том, превышает ли значение p определенный порог.
- Правильный вывод требует полной отчетности и прозрачности.
- Значение р, или статистическая значимость, не измеряет размер эффекта или важность результата.
- Само по себе значение p не дает достаточных доказательств в отношении модели или гипотезы.
Подробности: «Заявление ASA о p-значениях: контекст, процесс и цель» .
Ответы:
Вот несколько мыслей:
источник
Для меня одна из самых интересных вещей в споре о p-хакерстве заключается в том, что вся история p <= 0,05 как стандарта "один раз в голубой луне" для статистической значимости, как отметил Джозеф Калдейн в статье JASA по криминалистической статистике Еще в 90-х годах она не опиралась ни на какую статистическую теорию. Это соглашение, простая эвристика и эмпирическое правило, которое началось с Р.А. Фишера и с тех пор было преобразовано или освящено в его нынешний «несомненный» статус. Байесовский или нет, давно пора бросить вызов этому метрическому стандарту или хотя бы придать ему скептицизм, которого он заслуживает.
Тем не менее, моя интерпретация точки зрения Гельмана заключается в том, что, как хорошо известно, процесс рецензирования поощряет положительную статистическую значимость и наказывает незначительные результаты, не публикуя эти статьи. Это не зависит от того, окажет ли публикация незначительного открытия потенциально большое влияние на мышление и теоретизирование для данной области. Гельман, Симоншон и другие неоднократно указывали на злоупотребление уровнем значимости 0,05 в рецензируемых и опубликованных исследованиях, приводя примеры нелепых, но статистически значимых результатов в паранормальных, социальных и психологических исследованиях. Одним из самых вопиющих было статистически значимое открытие, что беременные женщины чаще носили красные платья. Гельман утверждает, что при отсутствии логических проблем со статистическими результатами,потенциально бессмысленное объяснение. Здесь он ссылается на профессиональную опасность в отрасли с чрезмерно техническими и заумными аргументами, которые мало или ничего не делают для продвижения дебатов среди светской аудитории.
Это точка зрения, которую Гэри Кинг решительно высказывает, когда он фактически просит количественных политологов (и, соответственно, всех квантов) прекратить механистический, технический репортаж, такой как «этот результат был значительным на уровне ap <= 0,05» и переход к более предметным интерпретациям. , Вот цитата из его бумаги,
Идея Кинга очень хорошо принята и наметила направление, в котором должны идти дебаты.
Максимальное использование статистического анализа: улучшение интерпретации и представления , Кинг, Томз и Виттенберг, 2002, Am Jour of Poli Sci .
источник
Вот некоторые из моих мыслей относительно Вопроса 3 после прочтения всех проницательных комментариев и ответов.
Возможно, одно практическое руководство в статистическом анализе, чтобы избежать взлома p-значения, состоит в том, чтобы вместо этого взглянуть на научно (или, биологически, клинически и т. Д.) Значительный / значимый размер эффекта.
Кроме того, во избежание использования слишком большого размера выборки для определения эффекта необходимо также учитывать требуемый размер выборки. То есть мы должны ограничить максимальный размер выборки, используемый для эксперимента.
Подводить итоги,
С учетом вышесказанного, возможно, мы можем избежать незначительного «значительного» эффекта, о котором говорит огромный размер выборки.
[Обновление 9/9/2015]
Что касается Вопроса 3, вот несколько предложений, основанных на недавней статье, написанной самой природой: «Непостоянное значение P дает невоспроизводимые результаты», как я уже упоминал в части «Вопрос».
[Конец обновления 6/9/2015]
источник
В современном использовании значение p относится к совокупной вероятности данных, учитывая нулевую гипотезу, равную или превышающую некоторый порог. Т.е.п( D | H0) ≤ α , я думаю чтоЧАС0 как правило, является гипотезой «отсутствия эффекта», обычно основанной на сравнении с вероятностью удовлетворительно маловероятного случайного результата в некотором количестве испытаний. В зависимости от поля оно варьируется от 5% до 0,1% или менее. Тем не мение,ЧАС0 не должно быть сравнение со случайным.
Это означает, что 1/20 результатов может отклонить ноль, когда они не должны иметь. Если наука основывает свое заключение на отдельных экспериментах, то это утверждение будет оправданным. В противном случае, если бы эксперименты были повторяемыми, это означало бы, что 19/20 не будет отклонено. Мораль этой истории в том, что эксперименты должны повторяться.
Наука - это традиция, основанная на «объективности», поэтому «объективная вероятность» естественно привлекательна. Напомним, что эксперименты предполагают продемонстрировать высокую степень контроля, часто используя блочную конструкцию и рандомизацию для контроля за факторами вне исследования. Таким образом, сравнение со случайными имеет смысл, поскольку предполагается, что все остальные факторы должны контролироваться, кроме тех, которые изучаются. Эти методы были очень успешными в сельском хозяйстве и промышленности до того, как были перенесены на науку.
Я не уверен, была ли когда-нибудь нехватка информации проблемой. Примечательно, что для многих нематематических наук статистика - это просто поле для галочки.
Я бы предложил общее прочтение о теории принятия решений, которая объединяет две структуры. Это просто сводится к использованию столько информации, сколько у вас есть. Статистика часто предполагает, что параметры в моделях имеют неизвестные значения из фиксированных распределений. Байесовцы предполагают, что параметры в моделях происходят из распределений, обусловленных тем, что мы знаем. Если информации достаточно, чтобы сформировать предварительную информацию, и достаточно информации, чтобы обновить ее до точного апостериорного значения, то это здорово. Если нет, то вы можете получить худшие результаты.
источник
Воспроизводимость результатов статистического теста
Это короткое, простое упражнение для оценки воспроизводимости решений, основанных на статистическом тестировании.
Consider a null hypothesis H0 with a set of alternative hypotheses containing H1 and H2. Setup the statistical hypothesis test procedure at a significance level of 0.05 to have a power of 0.8, if H1 is true. Further assume that the power for H2 is 0.5. To assess reproducibility of test result, the experiment is considered of executing the test procedure two times. Starting with the situation, where H0 is true, the probabilities for the outcomes of the joint experiment are displayed in Table 1. The probability of not being able to reproduce decisions is 0.095.
Таблица 1. Частоты, если H0 истинноThe frequencies change as the true state of nature changes. Assuming H1 is true, H0 can be rejected as designed with a power of 0.8. The resulting frequencies for the different outcomes of the joint experiment are displayed in Table 2. The probability of not being able to reproduce decisions is 0.32.
Table 2. Frequencies, if H1 is trueAssuming H2 is true, H0 will be rejected with a probability of 0.5. The resulting frequencies for the different outcomes of the joint experiment are displayed in Table 3. The probability of not being able to reproduce decisions is 0.5.
Table 3. Frequencies, if H2 is trueThe test procedure was designed to control type I errors (the rejection of the null hypothesis even though it is true) with a probability of 0.05 and limit type II errors (no rejection of the null hypothesis even though it is wrong and H1 is true) to 0.2. For both cases, with either H0 or H1 assumed to be true, this leads to non-negligible frequencies, 0.095 and 0.32, respectively, of "non-reproducible", "contradictory" decisions, if the same experiment is repeated twice. The situation gets worse with a frequency up to 0.5 for "non-reproducible", "contradictory" decisions, if the true state of nature is between the null- and the alternative hypothesis used to design the experiment.
The situation can also get better - if type 1 errors are controlled more strictly, or if the true state of nature is far away from the null, which results in a power to reject the null that is close to 1.
Thus, if you want more reproducible decisions, increase the significance level and the power of your tests. Not very astonishing ...
источник