Являются ли оценки Байеса невосприимчивыми к смещению отбора?
В большинстве работ, в которых обсуждаются оценки в высоком измерении, например, данные о последовательности всего генома, часто возникает проблема смещения отбора. Смещение выбора обусловлено тем фактом, что, хотя у нас есть тысячи потенциальных предикторов, будет выбрано лишь немногие, и для избранных будет сделан вывод. Таким образом, процесс состоит из двух этапов: (1) выбрать подмножество предикторов (2) выполнить вывод на выбранных наборах, например, оценить коэффициенты шансов. Давид в своей парадоксальной статье 1994 года сосредоточился на объективных оценках и оценках Байеса. Он упрощает задачу выбора самого большого эффекта, который может быть эффектом лечения. Затем он говорит, что объективные оценки влияют на предвзятость выбора. Он использовал пример: предположим, что затем каждый
Но тревожное заявление, которое делают Давид, Эфрон и другие авторы, заключается в том, что оценщики Байеса неуязвимы для предвзятости выбора. Если я теперь поставлю перед , скажем, , оценка Байеса для определяется как где , с стандартным гауссовским.δ i ∼ g ( . ) δ i E { δ i ∣ Z i } = z i + dм(гя)=∫ф(гя-δя)г(δя)dδяф(.)
Если мы определим новый оценщик как все , что вам выбрать для оценки с , будет тем же если выбор был основан на Это следует из того, что является монотонным в . Мы также знаем, что сокращает до нуля с помощью термина γ 2 ( Z ) = max { E { δ 1 ∣ Z 1 } , E { δ 2 ∣ Z 2 } , … , E { δ N ∣ Z N } } , i δ i max γ 1 ( Z ) i γ 2 ( Z ) γ 2 ( Z )
источник
Ответы:
Как описано выше, проблема заключается в выводе из индекса и значения (i⁰, µ⁰) наибольшего среднего значения выборки нормальных rvs. Что меня удивляет в презентации Давида, так это то, что байесовский анализ звучит не так уж много байесовским анализом. Если задана вся выборка, то байесовский подход должен давать апостериорное распределение по (i⁰, µ⁰), а не следовать этапам оценки, от оценки i⁰ до оценки ассоциированного среднего значения. И если необходимо, оценщики должны исходить из определения конкретной функции потерь. Когда вместо этого задается самая большая точка в выборке и только эта точка, ее распределение меняется, поэтому я довольно удивлен утверждением о том, что никакая корректировка не требуется.
Предыдущее моделирование также довольно удивительно в том смысле, что априорные значения на средстве должны быть совместными, а не продуктом независимых норм, поскольку эти средства сравниваются и, следовательно, сравнимы. Например, иерархический априор кажется более подходящим, с местоположением и масштабом, чтобы быть оцененным из целых данных. Создание связи между средствами ... Соответствующее возражение против использования независимых неправильных априорных значений заключается в том, что максимальное среднее значение μ⁰ не имеет четко определенной меры. Тем не менее, я не думаю, что критика одних приоров против других является уместной атакой на этот «парадокс».
источник
Даже если это немного нелогично, утверждение верно. Предположим, что для этого эксперимента, тогда апостериор для действительно равен . Этот нелогичный факт немного похож на то, что Байес неуязвим для (секретного) раннего прекращения (что также очень нелогично).μ 5 N ( x 5 , σ 2 )я*= 5 μ5 N( х5, σ2)
Байесовские рассуждения привели бы к ложным выводам, если для каждого такого эксперимента (представьте, что вы повторите это несколько раз), будут сохранены только результаты для лучшего сорта. Будет выбор данных, и байесовские методы явно не защищены от (секретного) выбора данных. На самом деле ни один статистический метод не застрахован от отбора данных.
Если бы такой выбор был сделан, полное байесовское рассуждение, учитывающее этот выбор, легко исправило бы иллюзию.
Однако предложение "Байесовская оценка невосприимчив к смещению выбора" немного опасно. Легко представить себе ситуации, когда «выбор» означает что-то другое, например, выбор пояснительных переменных или выбор данных. Байес явно не застрахован от этого.
источник