Понимание Gelman & Carlin «За пределами расчета мощности:…» (2014)

11

Я читаю Gelman & Carlin «Помимо вычислений мощности: оценка ошибок типа S (знак) и типа M (величина)» (2014). Я пытаюсь понять основную идею, основной путь, но я в замешательстве. Может ли кто-нибудь помочь мне понять сущность?

Бумага идет примерно так (если я правильно понял).

  • Статистические исследования по психологии часто страдают от небольших выборок.
  • При условии наличия статистически значимого результата в данном исследовании:
    (1) истинный размер эффекта, вероятно, будет сильно переоценен, и
    (2) знак эффекта может быть противоположным с высокой вероятностью - если только размер выборки не достаточно велик.
  • Выше показано, используя предварительное предположение о размере эффекта в популяции, и этот эффект обычно принимается за малый.

Моя первая проблема, почему условие на статистически значимый результат? Это отражает смещение публикации? Но, похоже, это не так. Так почему тогда?

Моя вторая проблема, если я сам провожу исследование, должен ли я относиться к своим результатам иначе, чем я привык (я делаю статистику по частоте, не очень хорошо знакомую с байесовским)? Например, я бы взял образец данных, оценил модель и записал точечную оценку для некоторого эффекта интереса и доверительного отношения вокруг него. Должен ли я теперь не доверять своему результату? Или я должен не доверять этому, если это статистически значимо? Как какой-либо конкретный предыдущий изменить это?

Каков основной вывод (1) для «производителя» статистических исследований и (2) для читателя прикладных статистических работ?

Рекомендации:

PS Я думаю, что новым элементом для меня здесь является включение предварительной информации, которую я не знаю, как к ней относиться (исходя из парадигмы частоты).

Ричард Харди
источник
Как вы видите, я в замешательстве, поэтому мои вопросы могут показаться непоследовательными или осмысленными. Я буду признателен за любые подсказки для придания большего смысла из статьи, которую я изучаю. Я надеюсь, что смогу поставить более разумные вопросы по мере моего понимания проблемы.
Ричард Харди
7
Обратите внимание, что они излагают предпосылку статьи с самого начала: « Вы только что закончили проведение эксперимента. Вы анализируете результаты и обнаруживаете значительный эффект . Успех! Но подождите - сколько информации действительно дает ваше исследование» «Насколько вы должны доверять своим результатам? » - они описывают, что происходит / что подразумевается, когда вы имеете значение. Они используют эти последствия, чтобы мотивировать сосредоточиться на вещах, отличных от значимости.
Glen_b
Вы должны не доверять своему результату - да - если вы запускаете несколько тестов значимости и отфильтровываете все, что оказывается незначительным; это своего рода «предвзятость публикации», но это может произойти без каких-либо публикаций, просто в лаборатории одного человека в течение нескольких месяцев или лет экспериментов. Каждый делает что-то подобное в определенной степени, отсюда педагогический интерес к обусловленности значительных результатов.
говорит амеба, восстанови Монику
@amoeba, хорошо, но если (гипотетически) я оцениваю только одну модель и сосредотачиваюсь только на одном заранее заданном параметре (так что абсолютно нет многократного тестирования), результаты Gelman & Carlin что-то изменят? Как насчет включения предварительной информации?
Ричард Харди
2
Предварительная информация необходима для оценки уровня ложного обнаружения; обычная логика проверки значимости гарантирует только частоту ошибок типа I P (знак | ноль). Чтобы оценить P (null | signif), вам нужно вызвать некоторое ранее. Это то, что Гелман и Карлин делают здесь. Если вы оцениваете только одну модель, то «частота ложных открытий» не имеет смысла (в подходе, основанном на частоте); но обычно люди оценивают много моделей :-) или, по крайней мере, они читают литературу, которая состоит из других людей, оценивающих много моделей.
говорит амеба: восстанови монику

Ответы:

5

Я перечитал газету, и на этот раз она кажется намного понятнее. Теперь также полезные комментарии @Glen_b и @amoeba имеют большой смысл.

Вся дискуссия основана на отправной точке, что был получен статистически значимый результат. При условии, что у нас есть расчетный размер эффекта, распределенный иначе, чем при отсутствии условия: Бумага, кажется, нацелена на две проблемы:

Pβ^(|β^ is statistically significant)Pβ^().
  1. Смещение публикации (публикуются только статистически значимые результаты) и
  2. Смещение в расчетах дизайна для новых исследований (принимая слишком большие ожидаемые величины эффекта в качестве эталона).

Хорошей новостью является то, что обе проблемы могут быть решены удовлетворительным образом.

  1. Учитывая вероятный ожидаемый размер эффекта , предполагаемый размер эффекта (при условии, что он был опубликован, потому что он был статистически значимым, в то время как в противном случае он не был бы опубликован), предполагаемая стандартная ошибка и семейство распределения (например, Normal или Student's ) оценки, мы можем отследить безусловное распределение размера эффекта .βplausibleβ^s.e.(β^)tPβ^()
  2. Используя предыдущие результаты, с помощью 1. возможного размера эффекта можно определить и использовать в дизайне исследования.βplausible

Чтобы кратко ответить на мои два вопроса:

  1. Речь идет о предвзятости публикации, хотя и не в смысле углубления данных, а в контексте недостаточных исследований; там статистически значимый результат, скорее всего, относится к отклонениям, скажем, 5% под нулевым значением (таким образом, нулевое значение на самом деле верно, но мы случайно оказались далеко от него случайно), а не к отклонению по альтернативе (где Нуль не соответствует действительности, и результат является "подлинным").
  2. Я должен быть осторожен при отклонении нулевого значения, потому что статистически значимый результат, скорее всего, связан с случайностью (даже если шанс ограничен, скажем, 5%), а не из-за «подлинного» эффекта (из-за низкой мощности) ,
Ричард Харди
источник
2
Этот ответ от Glen_b также очень полезен.
Ричард Харди
ИДК, если в нем действительно есть что-то лишнее, но я также написал ответ на этот вопрос, который может быть полезным. Одно замечание: я думаю, что они не обязательно рекомендуют оценивать «истинное» распределение размера эффекта, используя (называемый в статье), а скорее используют его для оценки вероятности создания типа S или Тип M ошибка на основе ваших текущих результатов испытаний. Это Байесовский, но ИМХО своего рода «байесовский лайт»;), потому что вы все еще используете его для интерпретации результатов теста для частых исследований. βplausibleD
Патрик Б.
@PatrickB., Спасибо. Я посмотрю немного позже. (Я вижу, что уже проголосовал за ваш ответ ранее; это означает, что я уже нашел его полезным.)
Ричард Харди
1
Ричард, я разработал функцию R для оценки ошибки Типа "S" и Типа "M" для более общего случая величин эффекта, а не того, что Гельман показывает при нормальном распределении. Когда вы читаете статью, существует простой процесс восстановления из ранее полученного и статистически значимого открытия. Но весь процесс полностью основан на анализе мощности. По сути, для исследований с небольшим шумом SE велика, и, допуская несколько разумных с помощью эмпирически проверяемых вероятных величин эффекта, вы можете получить разумные ...
rnorouzian
1
... оценки относительно того, что в будущем исследование должно включать в себя, скажем, размер выборки, необходимый для того, чтобы избежать высоких показателей типа "S" и высокой степени преувеличения (то есть типа "M"). Для записей, тип Гельмана «S» - это просто та часть под базовым распределением размера эффекта, которая находится на противоположной стороне эффекта подчиненного, деленного на мощность. В любом случае, посмотрите на функцию, если она может помочь.
rnorouzian
2

Есть еще один аспект этой статьи, который может быть полезен, если вы уже применяете байесовский анализ и не заботитесь о статистической значимости.

Предположим, что - это задний CDF количества (размер эффекта), который вы хотите оценить. В байесовской ситуации, пользуясь некоторыми обозначениями и переключаясь на разговоры о функциях плотности вероятности, у вас будет функция правдоподобия, основанная на некоторой наблюдаемой величине и некотором чистом априоре :PβVβ

p(β|V)p(V|β)p(β)

Здесь , вероятно, будет векторной величиной, в простейшем случае являющейся вектором нескольких независимых наблюдений, из которых возникает обычное произведение терминов вероятности, превращающихся в сумму логарифмических терминов и т. Д. Длина этого вектора будет равна параметризация размера выборки. В других моделях, скажем, где - Пуассон, он может быть свернут в параметр Пуассона, который также выражает параметризацию размера выборки.VVp(V|β)

Теперь предположим, что вы делаете гипотезу на основе обзора литературы или других средств. Вы можете использовать ваш предполагаемый процесс генерации данных с чтобы сгенерировать симуляции , которые представляют, какие данные вы увидите, если ваша модель хорошо определена и - это истинный размер эффекта.βplausibleP(V|β)β=βplausibleVβplausible

Тогда вы можете сделать что-то глупое: развернитесь и ведите себя так, будто этот образец - это наблюдаемые данные, и вытяните кучу образцов из общего апостериора. Из этих примеров вы можете вычислить статистику, как указано в документе.Vβ

Количества из связанной бумаги, ошибка типа S и коэффициент преувеличения, уже представляют собой одно и то же. Для этого размера эффекта, с учетом вашего выбора модели, они скажут вам для заданного параметра размера выборки, выбранного для , какова апостериорная вероятность неправильного знака и каково ожидаемое (в апостериорном) соотношении между величиной эффекта произведенный моделью и предполагаемым вероятным размером эффекта, поскольку вы меняете любой аспект относящийся к размеру выборки.VV

Самая хитрая часть - интерпретировать апостериорную «мощность» как апостериорную вероятность того, что предполагаемое значение по меньшей мере равно гипотетическому значению . Это не мера способности отвергнуть нулевую гипотезу, поскольку размер этой вероятности не будет использоваться в качестве меры значимости в частом смысле.ββplausible

Я не знаю, как это назвать, за исключением того, что на практике у меня было несколько приложений, и это очень полезный показатель для разработки дизайна исследования. По сути, он дает вам некоторый способ увидеть, сколько данных вам нужно предоставить (при условии, что ваши данные генерируются идеально из процесса, использующего ) для конкретного предположения о вероятности и предыдущих формах, которые приведут к некоторому «достаточно высокому» апостериорная вероятность эффекта определенного размера.βplausible

Где это было наиболее полезным для меня на практике, это в ситуациях, когда одну и ту же общую модель необходимо неоднократно применять к различным наборам данных, но когда нюансы между наборами данных могут оправдывать изменение предыдущего распределения или использование другого подмножества обзора литературы для решить, какой прагматичный выбор , а затем получить приблизительную диагностику того, приведут ли эти корректировки для разных наборов данных к случаю, когда вам понадобится значительно больше данных, чтобы иметь нетривиальную вероятность в последнем сосредоточены в правой части распределения.βplausible

Вы должны быть осторожны, чтобы никто не злоупотреблял этой метрикой «мощности», как это то же самое, что частое вычисление мощности, что довольно сложно. Но все эти метрики весьма полезны для проспективного и ретроспективного анализа проекта, даже если вся процедура моделирования является байесовской и не будет ссылаться на какой-либо результат статистической значимости.

Ely
источник