Насколько действителен эмпирический байесовский метод?

24

Поэтому я только что закончил читать замечательную книгу « Введение в эмпирический байесовский анализ» . Я думал, что книга была великолепной, но построение априорных данных на основе данных было неверным. Я был обучен тому, что вы разрабатываете план анализа, затем собираете данные и проверяете гипотезу, ранее определенную в плане анализа. Когда вы проводите анализ уже собранных данных, это приводит вас к пост-избирательному выводу, где вы должны быть гораздо более строгими в отношении того, что вы называете «значительным», см. Здесь . Я думаю, что у машинного обучения есть нечто аналогичное, которое называется «сбор вишни», что означает выбор предикторов перед настройкой тестовых и обучающих наборов ( Введение в статистическое обучение ).

Учитывая то, что я узнал ранее, мне кажется, что эмпирический байесовский фундамент основан на слабой основе. Люди используют это только в настройках, где данные были сгенерированы пассивно? Если это так, то это может быть оправдано, но не представляется правильным использовать его при выполнении строгого экспериментального плана, хотя я знаю, что Брэд Эфрон действительно использует эмпирический байесовский метод специально для биостатистики, как правило, очень поля NHST.

Мои вопросы:

  1. Насколько действителен эмпирический байесовский метод?
  2. В каких ситуациях это используется?
  3. В каких ситуациях следует избегать использования эмпирического байесовского подхода и почему?
  4. Люди используют это в областях кроме Биостатистики и если так, в каких ситуациях они используют это?
Alex
источник
1
Что значит «действительный»? Согласно выдающемуся ныне покойному Байесову Д. В. Линдли, «нет никого менее байесовского, чем эмпирический байесовский».
Марк Л. Стоун

Ответы:

16

Я думаю, важно помнить, что разные методы хороши для разных вещей, и тестирование значимости - это еще не все, что есть в мире статистики.

1 и 3) EB, вероятно, не является действительной процедурой проверки гипотез, но она также не предназначена для этого.

Правильность может быть многим, но вы говорите о строгом экспериментальном дизайне, поэтому мы, вероятно, обсуждаем проверку гипотез, которая должна помочь вам принять правильное решение с определенной долгосрочной частотой. Это строго дихотомический режим типа «да / нет», который в основном полезен для людей, которые должны принять решение типа «да / нет». На самом деле очень много классных работ очень умных людей. Эти методы имеют хорошее теоретическое обоснование в предположении, что все ваши предположения верны, и с. Тем не менее, EB, конечно, не был предназначен для этого. Если вы хотите механизм классических методов NHST, придерживайтесь классических методов NHST.


2) EB лучше всего применять в задачах, где вы оцениваете много похожих, переменных величин.

Эфрон сам открывает свою книгу « Крупномасштабный вывод», в которой перечисляются три разных периода истории статистики, указывая на то, что мы находимся в настоящее время.

Эпоха научного массового производства, в которой новые технологии, типичные для микроматрицы, позволяют единой команде ученых создавать наборы данных такого размера, которым позавидует Кветле. Но теперь поток данных сопровождается потоком вопросов, возможно, тысячами оценок или проверок гипотез, на которые статистику приходится отвечать вместе; совсем не то, что имели в виду классические мастера.

Он продолжает:

По своей природе эмпирические байесовские аргументы сочетают частые и байесовские элементы в анализе проблем повторяющейся структуры. Повторяющиеся структуры - это то, что научное массовое производство превосходит, например, по уровням экспрессии, сравнивающим больных и здоровых субъектов для тысяч генов одновременно с помощью микрочипов.

Пожалуй, самое успешное недавнее применение EB limma, доступное на Bioconductor . Это R-пакет с методами оценки дифференциальной экспрессии (т.е. микрочипов) между двумя исследовательскими группами по десяткам тысяч генов. Смит показывает, что их методы EB дают t-статистику с большей степенью свободы, чем если бы вы вычисляли обычную t-статистику по генам. Использование EB здесь «эквивалентно сжатию оценочных дисперсий выборки в сторону объединенной оценки, что приводит к гораздо более стабильному выводу, когда число массивов мало», что часто имеет место.

Как указывает выше Эфрон, это не совсем то, для чего был разработан классический НХСТ, и обстановка обычно скорее исследовательская, чем подтверждающая.


4) Как правило, вы можете рассматривать EB как метод усадки, и это может быть полезно везде, где усадка полезна

В limmaприведенном выше примере упоминается усадка. Чарльз Стейн дал нам удивительный результат, что при оценке средних для трех и более вещей существует оценка, которая лучше, чем использование наблюдаемых средних, . Оценщик Джеймса-Стейна имеет вид где и - константа. Этот оценщик сокращает наблюдаемые средние значения до нуля, и это лучше, чем использование в сильном смысле равномерно более низкого риска.Икс1,,,,,ИксКθ^яJSзнак равно(1-с/S2)Икся,S2знак равноΣJзнак равно1КИксJ,сИкся

Эфрон и Моррис показали аналогичный результат для сокращения к объединенному среднему значению и это то, чем, как правило, являются оценки EB. Ниже приведен пример снижения уровня преступности в разных городах методами EB. Как вы можете видеть, более экстремальные оценки сокращаются на значительное расстояние от среднего значения. Небольшие города, где мы можем ожидать большей дисперсии, получают большую усадку. Черная точка представляет большой город, который практически не получил усадки. У меня есть некоторые симуляции, которые показывают, что эти оценки действительно имеют меньший риск, чем использование наблюдаемых уровней преступности MLE.Икс¯,

усадка

Чем больше сходных количеств для оценки, тем больше вероятность того, что усадка полезна. Книга, на которую вы ссылаетесь, использует показатели бейсбола. Моррис (1983) указывает на несколько других приложений:

  • Разделение доходов --- Бюро переписей. Оценки дохода от переписи на душу населения для нескольких областей.
  • Обеспечение качества --- Bell Labs. Оценивает количество сбоев за разные периоды времени.
  • Страхование тарифов. Оценивает риск на единицу риска для групп застрахованных или для разных территорий.
  • Прием в юридическую школу. Оценивает вес для оценки LSAT относительно GPA для разных школ.
  • Пожарная сигнализация --- Нью-Йорк. Оценивает частоту ложных срабатываний для разных мест расположения будильников.

Все это проблемы параллельной оценки, и, насколько я знаю, они больше направлены на то, чтобы сделать хороший прогноз того, что такое определенное количество, чем на то, чтобы выяснить решение «да / нет».


Некоторые ссылки

  • Эфрон Б. (2012). Крупномасштабный вывод: эмпирические байесовские методы оценки, тестирования и прогнозирования (т. 1). Издательство Кембриджского университета. Чикаго
  • Efron B. & Morris C. (1973). Правило оценки Штейна и его конкуренты - эмпирический байесовский подход. Журнал Американской статистической ассоциации, 68 (341), 117-130. Чикаго
  • James, W. & Stein, C. (1961, июнь). Оценка с квадратичной потерей. В трудах четвертого симпозиума Беркли по математической статистике и вероятности (т. 1, № 1961, с. 361-379). Чикаго
  • Моррис, CN (1983). Параметрический эмпирический байесовский вывод: теория и приложения. Журнал Американской статистической ассоциации, 78 (381), 47-55.
  • Смит Г.К. (2004). Линейные модели и эмпирические байесовские методы оценки дифференциальной экспрессии в экспериментах с микрочипами. Статистические приложения в генетике и молекулярной биологии Том 3, выпуск 1, статья 3.
Эйнар
источник