Каково байесовское обоснование для анализа привилегий, проведенного раньше, чем другие анализы?

26

Предпосылки и эмпирический пример

У меня есть два исследования; Я провел эксперимент (исследование 1), а затем повторил его (исследование 2). В исследовании 1 я обнаружил взаимодействие между двумя переменными; в исследовании 2 это взаимодействие было в том же направлении, но не значительным. Вот краткое изложение модели исследования 1:

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)              5.75882    0.26368  21.840  < 2e-16 ***
condSuppression         -1.69598    0.34549  -4.909 1.94e-06 ***
prej                    -0.01981    0.08474  -0.234  0.81542    
condSuppression:prej     0.36342    0.11513   3.157  0.00185 ** 

И модель изучения 2:

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           5.24493    0.24459  21.444   <2e-16 ***
prej                  0.13817    0.07984   1.731   0.0851 .  
condSuppression      -0.59510    0.34168  -1.742   0.0831 .  
prej:condSuppression  0.13588    0.11889   1.143   0.2545  

Вместо того, чтобы сказать: «Я полагаю, у меня ничего нет, потому что я« не смог воспроизвести »», я сделал то, что объединил два набора данных, создал фиктивную переменную для исследования, из которого поступили данные, и затем запустил взаимодействие. снова после контроля для изучения фиктивной переменной. Это взаимодействие было значительным даже после контроля за ним, и я обнаружил, что это двустороннее взаимодействие между условием и неприязнью / предиджи не было квалифицировано трехсторонним взаимодействием с фиктивной переменной исследования.

Введение в байесовский анализ

У меня был кто-то, кто предположил, что это отличная возможность использовать байесовский анализ: в исследовании 2 у меня есть информация из исследования 1, которую я могу использовать в качестве предварительной информации! Таким образом, в исследовании 2 выполняется байесовское обновление, полученное в результате частых, обычных наименьших квадратов результатов исследования 1. Итак, я возвращаюсь и повторно анализирую модель исследования 2, теперь используя информативные априорные значения коэффициентов: все коэффициенты имели нормальный до, где среднее значение было оценкой в ​​исследовании 1, а стандартное отклонение было стандартной ошибкой в ​​исследовании 1.

Это краткое изложение результата:

Estimates:
                       mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)             5.63    0.17    5.30    5.52    5.63    5.74    5.96
condSuppression        -1.20    0.20   -1.60   -1.34   -1.21   -1.07   -0.80
prej                    0.02    0.05   -0.08   -0.01    0.02    0.05    0.11
condSuppression:prej    0.34    0.06    0.21    0.30    0.34    0.38    0.46
sigma                   1.14    0.06    1.03    1.10    1.13    1.17    1.26
mean_PPD                5.49    0.11    5.27    5.41    5.49    5.56    5.72
log-posterior        -316.40    1.63 -320.25 -317.25 -316.03 -315.23 -314.29

Похоже, что теперь у нас есть довольно веские доказательства взаимодействия из анализа исследования 2. Это согласуется с тем, что я делал, когда просто складывал данные друг на друга и запускал модель с номером исследования в качестве фиктивной переменной.

Неэффективно: что, если я сначала побежу на второй курс?

Это заставило меня задуматься: что, если я сначала запустил исследование 2, а затем использовал данные исследования 1, чтобы обновить свои убеждения в исследовании 2? Я сделал то же самое, что и выше, но в обратном порядке: я повторно проанализировал данные исследования 1, используя частые, обычные оценки коэффициента наименьших квадратов и стандартные отклонения от исследования 2 в качестве предыдущих средних и стандартных отклонений для своего анализа данных исследования 1. Итоговые результаты были:

Estimates:
                          mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)                5.35    0.17    5.01    5.23    5.35    5.46    5.69
condSuppression           -1.09    0.20   -1.47   -1.22   -1.09   -0.96   -0.69
prej                       0.11    0.05    0.01    0.08    0.11    0.14    0.21
condSuppression:prej       0.17    0.06    0.05    0.13    0.17    0.21    0.28
sigma                      1.10    0.06    0.99    1.06    1.09    1.13    1.21
mean_PPD                   5.33    0.11    5.11    5.25    5.33    5.40    5.54
log-posterior           -303.89    1.61 -307.96 -304.67 -303.53 -302.74 -301.83

Опять же, мы видим доказательства взаимодействия, однако это не обязательно имело место. Обратите внимание, что точечная оценка для обоих байесовских анализов даже не находится в 95% вероятных интервалах друг для друга; два достоверных интервала из байесовского анализа имеют больше непересекающихся, чем они перекрываются.

Что такое байесовское оправдание для старшинства времени?

Мой вопрос, таким образом, таков: каковы байесовские основания для соблюдения хронологии того, как данные были собраны и проанализированы? Я получаю результаты исследования 1 и использую их в качестве информативных приоритетов в исследовании 2, чтобы использовать исследование 2 для «обновления» своих убеждений. Но если мы предположим, что результаты, которые я получаю, случайным образом взяты из дистрибутива с истинным популяционным эффектом ... тогда почему я отдаю предпочтение результатам исследования 1? Каково обоснование для использования результатов исследования 1 в качестве априорных для исследования 2 вместо того, чтобы принимать результаты исследования 2 в качестве априорных для исследования 1? Имеет ли значение порядок, в котором я собирал и рассчитывал анализы? Мне не кажется, что это должно быть для меня - каково байесовское оправдание для этого? Почему я должен верить, что точечная оценка ближе к .34, чем к .17 только потому, что я сначала запустил исследование 1?


Отвечая на ответ Кодиолога

Кодиолог заметил:

Второе из этих указаний на важный шаг, который вы сделали из Байесовской конвенции. Сначала вы не установили предварительную версию, а затем подобрали обе модели в байесовском стиле. Вы подходите одной модели небайесовским способом, а затем используете ее в качестве приоры для другой модели. Если бы вы использовали обычный подход, вы бы не увидели зависимость от порядка, которую вы видели здесь.

Чтобы решить эту проблему, я подхожу к моделям для 1-го и 2-го исследований, где все коэффициенты регрессии имеют приоритет перед . Переменная была фиктивная переменная для экспериментального состояния, закодированной 0 или 1; переменной, а также результаты, оба были измерены на 7-балльной шкале от 1 до 7. Таким образом, я думаю , что это справедливо выбор ранее. По тому, как масштабируются данные, очень и очень редко можно увидеть коэффициенты, намного превышающие то, что предполагалось ранее.N(0,5)condprej

Средние оценки и стандартное отклонение этих оценок примерно такие же, как в регрессии МНК. Исследование 1:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.756    0.270    5.236    5.573    5.751    5.940    6.289
condSuppression        -1.694    0.357   -2.403   -1.925   -1.688   -1.452   -0.986
prej                   -0.019    0.087   -0.191   -0.079   -0.017    0.040    0.150
condSuppression:prej    0.363    0.119    0.132    0.282    0.360    0.442    0.601
sigma                   1.091    0.057    0.987    1.054    1.088    1.126    1.213
mean_PPD                5.332    0.108    5.121    5.259    5.332    5.406    5.542
log-posterior        -304.764    1.589 -308.532 -305.551 -304.463 -303.595 -302.625

И исследование 2:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.249    0.243    4.783    5.082    5.246    5.417    5.715
condSuppression        -0.599    0.342   -1.272   -0.823   -0.599   -0.374    0.098
prej                    0.137    0.079   -0.021    0.084    0.138    0.192    0.287
condSuppression:prej    0.135    0.120   -0.099    0.055    0.136    0.214    0.366
sigma                   1.132    0.056    1.034    1.092    1.128    1.169    1.253
mean_PPD                5.470    0.114    5.248    5.392    5.471    5.548    5.687
log-posterior        -316.699    1.583 -320.626 -317.454 -316.342 -315.561 -314.651

Поскольку эти средние значения и стандартные отклонения более или менее совпадают с оценками OLS, эффект порядка выше все еще имеет место. Если я включаю апостериорную статистику из исследования 1 в априорные значения при анализе исследования 2, я наблюдаю другой конечный апостериор, чем при анализе сначала исследования 2, а затем использую эти апостериорные сводные статистические данные в качестве априоров для анализа исследования 1.

Даже когда я использую байесовские средние значения и стандартные отклонения для коэффициентов регрессии в качестве априорных значений вместо оценок для частоты, я все равно наблюдаю тот же эффект порядка. Таким образом, остается вопрос: каково байесовское оправдание для привилегирования исследования, которое было первым?

Марк Уайт
источник
2
«Я все еще был бы в такой же ситуации. Таким образом, остается вопрос: каково байесовское оправдание для привилегии исследования, которое было первым?» А? В каком смысле вы все еще предпочитаете Учебу 1? Вы можете подобрать две модели, как вы описали здесь, или в обратном порядке, и ваша окончательная оценка, например, истинного коэффициента популяции, prejдолжна быть одинаковой в любом случае, если я не пойму вашу процедуру неправильно.
Kodiologist
@ Kodiologist я отредактировал для ясности, включая больше о процедуре.
Марк Уайт
1
Как насчет ковариационной матрицы и ошибки? Вы должны использовать весь задний сустав как ваш новый предшественник.
Scortchi - Восстановить Монику
@ Scortchi bingo - я думаю, что это правильный ответ, и именно поэтому ответ unutbu заставил меня поверить. То, что я сделал, было очень грубой версией обновления: я взял сводную статистику, а не весь совместный задний план. Это подразумевает вопрос: есть ли способ включить весь задний сустав как априор rstanarmили Стэн? Похоже, что этот вопрос уже задавался здесь раньше: stats.stackexchange.com/questions/241690/…
Марк Уайт
1
Если вы начинаете с гауссовых априоров (и независимости?) Для коэффициентов и обратной гаммы для дисперсии, то у вас есть нормальная обратная гамма, и она сопряжена. Посмотрите обновление уравнений.
Scortchi - Восстановить Монику

Ответы:

22

Теорема Байеса гласит, что после масштабирования значение posteriorравно prior * likelihood(поэтому вероятность равна 1). Каждое наблюдение имеет, likelihoodчто может быть использовано для обновления priorи создания нового posterior:

posterior_1 = prior * likelihood_1
posterior_2 = posterior_1 * likelihood_2
...
posterior_n = posterior_{n-1} * likelihood_n

И что

posterior_n = prior * likelihood_1 * ... * likelihood_n

Коммутативность умножения подразумевает, что обновления могут быть сделаны в любом порядке . Поэтому, если вы начнете с одного предварительного, вы можете смешать наблюдения из исследования 1 и исследования 2 в любом порядке, применить формулу Байеса и прийти к одному и тому же финалу posterior.

unutbu
источник
1
Имеет смысл. Таким образом, это указывает на возможную причину несоответствия как на то, как то, как я выполнял свои анализы (включил апостериорную сводную статистику в предыдущие аргументы для следующего исследования), - это не как обновление работает? То есть: мне нужно рассмотреть всю последующую информацию, а не просто включить итоговую статистику из нее в приоры последующих анализов. Правильный?
Марк Уайт
4
@MarkWhite Верно. Последующие распределения из вашего первого анализа должны быть вашими априорами для второго.
Kodiologist
4
@ Kodiologist и сводная статистика о заднем! = Заднем
Марк Уайт
@MarkWhite Верно.
Kodiologist
22

Сначала я должен указать, что:

  1. В своем подходе к проверке значимости вы отслеживали отрицательный результат с помощью другой модели, которая дала вам еще один шанс получить положительный результат. Такая стратегия увеличивает частоту ошибок по типу I вашего проекта. Для проверки значимости необходимо заранее выбрать аналитическую стратегию, чтобы были правильными.p
  2. Вы очень доверяете результатам исследования 1, переводя свои выводы из этого образца прямо в приоры. Помните, априор - это не просто отражение прошлых открытий. Он должен закодировать все ваши прежние убеждения, в том числе ваши убеждения до того, как были получены ранее. Если вы признаете, что исследование 1 включало ошибку выборки, а также другие виды менее прослеживаемой неопределенности, такие как неопределенность модели, вам следует использовать более консервативный предварительный вариант.

Второе из этих указаний на важный шаг, который вы сделали из Байесовской конвенции. Сначала вы не установили предварительную версию, а затем подобрали обе модели в байесовском стиле. Вы подходите одной модели небайесовским способом, а затем используете ее в качестве приоры для другой модели. Если бы вы использовали обычный подход, вы бы не увидели зависимость от порядка, которую вы видели здесь.

Kodiologist
источник
1. Как я проверил отрицательный результат с другой моделью? Что вы подразумеваете под «отрицательным результатом»? Что касается уровня ошибок типа I в рамках всего исследования, то это два отдельных исследования, проводимых в течение нескольких недель друг от друга. В любом случае, я верю в проведение исследовательского анализа данных, поэтому я никогда не думаю, что p-значения на практике являются «правильными» или что мы должны ожидать, что они будут «абсолютно правильными». Если бы люди только делали тесты, о которых они думали заранее, мы упустили бы много замечательных результатов, которые произошли случайно, и мы бы потратили кучу данных.
Марк Уайт
2
p
1
2. Да, но вы бы в итоге получили другие приоритеты для исследования 2, которое не привело к тому, что вы так сильно поверили в идею, что исследование 1 было точным.
Кодиолог
1
1. Проблема не в том, что вы собрали больше данных и проанализировали их, а в том, что вы повторно проанализировали данные обоих исследований (с помощью унифицированной модели с новым предиктором), потому что вы получили отрицательные результаты при первом анализе второго набора данных. Я никогда не видел оснований полагать, что проверка значимости на самом деле полезна, но большинство из тех, кто считает, что это, кажется, считает, что все теоремы о проверке значимости подтверждают ее полезность, а теоремы, как и все теоремы, требуют определенные помещения для того, чтобы получить свои выводы.
Кодиолог
1
@ Kodiologist - Если вы не думаете, что тестирование значимости когда-либо полезно, на каком основании вы подозреваете (например) исследователя, который приходит к выводу, что у большинства людей, скорее всего, есть голубые глаза, потому что у всех в их выборке из двух это было?
Оби 2.0
4

Я подумал, что мог бы сделать серию графиков с другой, но стилизованной задачей, чтобы показать вам, почему может быть опасно переходить от частых к байесовским методам и почему использование сводной статистики может создавать проблемы.

Вместо того, чтобы использовать ваш пример, который является многомерным, я собираюсь сократить его до одного измерения с двумя исследованиями, размер которых составляет три наблюдения и три наблюдения.

1π11+(xθ)2.

Я использую его, потому что центральная предельная теорема неприменима, ей не хватает достаточной статистики, экстремальные наблюдения распространены, неравенство Чебычева не выполняется, и целый ряд нормально работающих решений разваливается. Я использую его, потому что он дает отличные примеры, не требуя слишком много работы для решения проблемы.

{5,1,4}{1.5,1,.5}±669σ±3σ

Задние плотности двух отдельных исследований Байесовские Отдельные Постеры

Как видно, взятие сводной статистики из выборки может быть невероятно обманчивым. Если вы привыкли видеть красивые, унимодальные, четко определенные и именованные плотности, то это может быстро выйти за пределы с помощью байесовских инструментов. Нет такого именованного распределения, как это, но вы наверняка могли бы описать его с помощью сводной статистики, если бы вы не смотрели на него визуально. Использование сводной статистики может быть проблемой, если вы собираетесь использовать ее для создания нового априора.

Распределение достоверности для обоих образцов одинаково. Поскольку масштаб известен, единственным неизвестным параметром является медиана. Для выборки размером три медиана - это MVUE. В то время как распределение Коши не имеет среднего значения или дисперсии, выборочное распределение медианы имеет. Это менее эффективно, чем оценка максимального правдоподобия, но мне не нужно никаких усилий для расчета. Для больших размеров выборки метод Ротенберга - это MVUE, а также существуют решения среднего размера.

Для распространения Frequentist вы получаете Распространение доверия

Pr ( θ | x )Pr(x|θ)Pr(θ|x)

Распределение Frequentist предполагает бесконечное повторение выборки размером три ничьи и показывает предельное распределение для распределения медиан выборки. Байесовское распределение дается поэтому оно зависит только от наблюдаемого образца и игнорирует хорошие или плохие свойства, которые может иметь этот образец. Действительно, выборка необычна для байесовских методов, и поэтому можно сделать паузу, чтобы сделать сильный вывод об этом. Вот почему задняя часть такая широкая, образец необычный. Метод Frequentist контролирует необычные образцы, в то время как байесовский - нет. Это создает извращенный случай, когда дополнительная достоверность параметра масштаба сужает решение Frequentist, но расширяет байесовский метод.x

Задняя часть сустава является продуктом как постеров, так и ассоциативности умножения, не имеет значения, какой порядок вы используете. Визуально, задний сустав есть Совместные и отдельные плакаты.

Очевидно, что если бы вы наложили какой-то упрощенный дистрибутив на постеры и использовали их сводную статистику, вы, скорее всего, получили бы другой ответ. На самом деле, это мог быть совсем другой ответ. Если бы для исследования использовался 70% вероятный регион, это привело бы к отключению заслуживающего доверия региона. Существование несвязных интервалов иногда бывает в байесовских методах. График наивысшего интервала плотности и наименьшего интервала плотности для первого исследованияHDR против LDR

Вы заметите, что HDR сломан осколком региона, который находится за пределами правдоподобного набора.

Хотя многие из этих проблем обычно исчезают в больших наборах с регрессией, позвольте мне привести пример естественного различия в том, как байесовские и частые методы будут по-разному обрабатывать пропущенные переменные в регрессии.

Рассмотрим хорошо построенную регрессию с одной отсутствующей переменной - погодой. Давайте предположим, что клиенты ведут себя по-разному в дождливые и солнечные дни. Если этой разницы достаточно, то легко могут быть две байесовские задние моды. Один режим отражает солнечное поведение, другой - дождливый. Вы не знаете, почему у вас есть два режима. Это может быть статистический прогон или пропущенная точка данных, но либо ваша выборка необычна, либо в вашей модели пропущена переменная.

Решение Frequentist будет усреднять два состояния и может поместить линию регрессии в область, где поведение клиента фактически не происходит, но которое усредняет два типа поведения. Это также будет смещено вниз. Проблемы могут быть пойманы при анализе остатков, особенно если есть большая разница в истинных отклонениях, но это не так. Это может быть одна из тех странных картинок остатков, которые время от времени будут появляться на перекрестной проверке.

Тот факт, что у вас есть два разных автора из одних и тех же данных, означает, что вы не умножили их вместе напрямую. Либо вы создали апостериор из решения Frequentist, которое не сопоставлялось один к одному с байесовским апостериором, либо вы создали априор из суммарной статистики, и функция правдоподобия не была абсолютно симметричной, что является обычным явлением.

Дейв Харрис
источник