Я читаю Gelman & Carlin «Помимо вычислений мощности: оценка ошибок типа S (знак) и типа M (величина)» (2014). Я пытаюсь понять основную идею, основной путь, но я в замешательстве. Может ли кто-нибудь помочь мне понять сущность?
Бумага идет примерно так (если я правильно понял).
- Статистические исследования по психологии часто страдают от небольших выборок.
- При условии наличия статистически значимого результата в данном исследовании:
(1) истинный размер эффекта, вероятно, будет сильно переоценен, и
(2) знак эффекта может быть противоположным с высокой вероятностью - если только размер выборки не достаточно велик. - Выше показано, используя предварительное предположение о размере эффекта в популяции, и этот эффект обычно принимается за малый.
Моя первая проблема, почему условие на статистически значимый результат? Это отражает смещение публикации? Но, похоже, это не так. Так почему тогда?
Моя вторая проблема, если я сам провожу исследование, должен ли я относиться к своим результатам иначе, чем я привык (я делаю статистику по частоте, не очень хорошо знакомую с байесовским)? Например, я бы взял образец данных, оценил модель и записал точечную оценку для некоторого эффекта интереса и доверительного отношения вокруг него. Должен ли я теперь не доверять своему результату? Или я должен не доверять этому, если это статистически значимо? Как какой-либо конкретный предыдущий изменить это?
Каков основной вывод (1) для «производителя» статистических исследований и (2) для читателя прикладных статистических работ?
Рекомендации:
- Гельман, Эндрю и Джон Карлин. «Помимо расчета мощности: оценка ошибок типа S (знак) и типа M (величина)». Перспективы психологической науки 9.6 (2014): 641-651.
PS Я думаю, что новым элементом для меня здесь является включение предварительной информации, которую я не знаю, как к ней относиться (исходя из парадигмы частоты).
источник
Ответы:
Я перечитал газету, и на этот раз она кажется намного понятнее. Теперь также полезные комментарии @Glen_b и @amoeba имеют большой смысл.
Вся дискуссия основана на отправной точке, что был получен статистически значимый результат. При условии, что у нас есть расчетный размер эффекта, распределенный иначе, чем при отсутствии условия: Бумага, кажется, нацелена на две проблемы:
Хорошей новостью является то, что обе проблемы могут быть решены удовлетворительным образом.
Чтобы кратко ответить на мои два вопроса:
источник
Есть еще один аспект этой статьи, который может быть полезен, если вы уже применяете байесовский анализ и не заботитесь о статистической значимости.
Предположим, что - это задний CDF количества (размер эффекта), который вы хотите оценить. В байесовской ситуации, пользуясь некоторыми обозначениями и переключаясь на разговоры о функциях плотности вероятности, у вас будет функция правдоподобия, основанная на некоторой наблюдаемой величине и некотором чистом априоре :P β V β
Здесь , вероятно, будет векторной величиной, в простейшем случае являющейся вектором нескольких независимых наблюдений, из которых возникает обычное произведение терминов вероятности, превращающихся в сумму логарифмических терминов и т. Д. Длина этого вектора будет равна параметризация размера выборки. В других моделях, скажем, где - Пуассон, он может быть свернут в параметр Пуассона, который также выражает параметризацию размера выборки.V V p(V|β)
Теперь предположим, что вы делаете гипотезу на основе обзора литературы или других средств. Вы можете использовать ваш предполагаемый процесс генерации данных с чтобы сгенерировать симуляции , которые представляют, какие данные вы увидите, если ваша модель хорошо определена и - это истинный размер эффекта.βplausible P(V|β) β=βplausible V βplausible
Тогда вы можете сделать что-то глупое: развернитесь и ведите себя так, будто этот образец - это наблюдаемые данные, и вытяните кучу образцов из общего апостериора. Из этих примеров вы можете вычислить статистику, как указано в документе.V β
Количества из связанной бумаги, ошибка типа S и коэффициент преувеличения, уже представляют собой одно и то же. Для этого размера эффекта, с учетом вашего выбора модели, они скажут вам для заданного параметра размера выборки, выбранного для , какова апостериорная вероятность неправильного знака и каково ожидаемое (в апостериорном) соотношении между величиной эффекта произведенный моделью и предполагаемым вероятным размером эффекта, поскольку вы меняете любой аспект относящийся к размеру выборки.V V
Самая хитрая часть - интерпретировать апостериорную «мощность» как апостериорную вероятность того, что предполагаемое значение по меньшей мере равно гипотетическому значению . Это не мера способности отвергнуть нулевую гипотезу, поскольку размер этой вероятности не будет использоваться в качестве меры значимости в частом смысле.β βplausible
Я не знаю, как это назвать, за исключением того, что на практике у меня было несколько приложений, и это очень полезный показатель для разработки дизайна исследования. По сути, он дает вам некоторый способ увидеть, сколько данных вам нужно предоставить (при условии, что ваши данные генерируются идеально из процесса, использующего ) для конкретного предположения о вероятности и предыдущих формах, которые приведут к некоторому «достаточно высокому» апостериорная вероятность эффекта определенного размера.βplausible
Где это было наиболее полезным для меня на практике, это в ситуациях, когда одну и ту же общую модель необходимо неоднократно применять к различным наборам данных, но когда нюансы между наборами данных могут оправдывать изменение предыдущего распределения или использование другого подмножества обзора литературы для решить, какой прагматичный выбор , а затем получить приблизительную диагностику того, приведут ли эти корректировки для разных наборов данных к случаю, когда вам понадобится значительно больше данных, чтобы иметь нетривиальную вероятность в последнем сосредоточены в правой части распределения.βplausible
Вы должны быть осторожны, чтобы никто не злоупотреблял этой метрикой «мощности», как это то же самое, что частое вычисление мощности, что довольно сложно. Но все эти метрики весьма полезны для проспективного и ретроспективного анализа проекта, даже если вся процедура моделирования является байесовской и не будет ссылаться на какой-либо результат статистической значимости.
источник