Поэтому я только что закончил читать замечательную книгу « Введение в эмпирический байесовский анализ» . Я думал, что книга была великолепной, но построение априорных данных на основе данных было неверным. Я был обучен тому, что вы разрабатываете план анализа, затем собираете данные и проверяете гипотезу, ранее определенную в плане анализа. Когда вы проводите анализ уже собранных данных, это приводит вас к пост-избирательному выводу, где вы должны быть гораздо более строгими в отношении того, что вы называете «значительным», см. Здесь . Я думаю, что у машинного обучения есть нечто аналогичное, которое называется «сбор вишни», что означает выбор предикторов перед настройкой тестовых и обучающих наборов ( Введение в статистическое обучение ).
Учитывая то, что я узнал ранее, мне кажется, что эмпирический байесовский фундамент основан на слабой основе. Люди используют это только в настройках, где данные были сгенерированы пассивно? Если это так, то это может быть оправдано, но не представляется правильным использовать его при выполнении строгого экспериментального плана, хотя я знаю, что Брэд Эфрон действительно использует эмпирический байесовский метод специально для биостатистики, как правило, очень поля NHST.
Мои вопросы:
- Насколько действителен эмпирический байесовский метод?
- В каких ситуациях это используется?
- В каких ситуациях следует избегать использования эмпирического байесовского подхода и почему?
- Люди используют это в областях кроме Биостатистики и если так, в каких ситуациях они используют это?
Ответы:
Я думаю, важно помнить, что разные методы хороши для разных вещей, и тестирование значимости - это еще не все, что есть в мире статистики.
1 и 3) EB, вероятно, не является действительной процедурой проверки гипотез, но она также не предназначена для этого.
Правильность может быть многим, но вы говорите о строгом экспериментальном дизайне, поэтому мы, вероятно, обсуждаем проверку гипотез, которая должна помочь вам принять правильное решение с определенной долгосрочной частотой. Это строго дихотомический режим типа «да / нет», который в основном полезен для людей, которые должны принять решение типа «да / нет». На самом деле очень много классных работ очень умных людей. Эти методы имеют хорошее теоретическое обоснование в предположении, что все ваши предположения верны, и с. Тем не менее, EB, конечно, не был предназначен для этого. Если вы хотите механизм классических методов NHST, придерживайтесь классических методов NHST.
2) EB лучше всего применять в задачах, где вы оцениваете много похожих, переменных величин.
Эфрон сам открывает свою книгу « Крупномасштабный вывод», в которой перечисляются три разных периода истории статистики, указывая на то, что мы находимся в настоящее время.
Он продолжает:
Пожалуй, самое успешное недавнее применение EB
limma
, доступное на Bioconductor . Это R-пакет с методами оценки дифференциальной экспрессии (т.е. микрочипов) между двумя исследовательскими группами по десяткам тысяч генов. Смит показывает, что их методы EB дают t-статистику с большей степенью свободы, чем если бы вы вычисляли обычную t-статистику по генам. Использование EB здесь «эквивалентно сжатию оценочных дисперсий выборки в сторону объединенной оценки, что приводит к гораздо более стабильному выводу, когда число массивов мало», что часто имеет место.Как указывает выше Эфрон, это не совсем то, для чего был разработан классический НХСТ, и обстановка обычно скорее исследовательская, чем подтверждающая.
4) Как правило, вы можете рассматривать EB как метод усадки, и это может быть полезно везде, где усадка полезна
ВИкс1, . , , , XК θ^JSя= ( 1 - с / с2) Xя, S2знак равно ∑КJ = 1ИксJ, с Икся
limma
приведенном выше примере упоминается усадка. Чарльз Стейн дал нам удивительный результат, что при оценке средних для трех и более вещей существует оценка, которая лучше, чем использование наблюдаемых средних, . Оценщик Джеймса-Стейна имеет вид где и - константа. Этот оценщик сокращает наблюдаемые средние значения до нуля, и это лучше, чем использование в сильном смысле равномерно более низкого риска.Эфрон и Моррис показали аналогичный результат для сокращения к объединенному среднему значению и это то, чем, как правило, являются оценки EB. Ниже приведен пример снижения уровня преступности в разных городах методами EB. Как вы можете видеть, более экстремальные оценки сокращаются на значительное расстояние от среднего значения. Небольшие города, где мы можем ожидать большей дисперсии, получают большую усадку. Черная точка представляет большой город, который практически не получил усадки. У меня есть некоторые симуляции, которые показывают, что эти оценки действительно имеют меньший риск, чем использование наблюдаемых уровней преступности MLE.Икс¯,
Чем больше сходных количеств для оценки, тем больше вероятность того, что усадка полезна. Книга, на которую вы ссылаетесь, использует показатели бейсбола. Моррис (1983) указывает на несколько других приложений:
Все это проблемы параллельной оценки, и, насколько я знаю, они больше направлены на то, чтобы сделать хороший прогноз того, что такое определенное количество, чем на то, чтобы выяснить решение «да / нет».
Некоторые ссылки
источник