Хорошо, это вопрос, который не дает мне спать по ночам.
Может ли процедура начальной загрузки быть интерпретирована как аппроксимация некоторой байесовской процедуры (кроме байесовской начальной загрузки)?
Мне действительно нравится байесовская «интерпретация» статистики, которую я нахожу приятной и понятной. Однако у меня также есть слабость к процедуре начальной загрузки, которая настолько проста, но во многих ситуациях дает разумные выводы. Однако я был бы более доволен загрузкой, если бы знал, что загрузчик в некотором смысле приближается к заднему распределению.
Я знаю о «байесовском загрузчике» (Rubin, 1981), но, с моей точки зрения, эта версия загрузчика так же проблематична, как и стандартный загрузчик. Проблема состоит в том, что вы действительно делаете своеобразное модельное предположение, как при выполнении классического, так и байесовского бутстрапа, то есть возможные значения распределения - это только те значения, которые я уже видел. Как эти странные модельные предположения могут все же привести к очень разумным выводам, которые дают процедуры начальной загрузки? Я искал статьи, которые исследовали свойства начальной загрузки (например, Weng, 1989), но я не нашел четкого объяснения, которым я доволен.
Ссылки
Дональд Б. Рубин (1981). Байесовский бутстрап. Энн. Statist. Том 9, № 1, 130-134.
Чунг-Синг Венг (1989). Об асимптотическом свойстве второго порядка среднего байесовской начальной загрузки. Летопись статистики , вып. 17, № 2, с. 705-710.
Ответы:
Раздел 8.4 «Статистического обучения Хасти, Тибширани и Фридмана» гласит «Отношения между бутстрапом и байесовским умозаключением». Это может быть именно то, что вы ищете. Я считаю, что эта книга находится в свободном доступе через веб-сайт Стэнфорда, хотя у меня нет ссылки под рукой.
Редактировать:
Вот ссылка на книгу, которую авторы сделали свободно доступной в Интернете:
http://www-stat.stanford.edu/~tibs/ElemStatLearn/
На странице 272 авторы пишут:
В этом перекрестном проверенном вопросе обнаружена еще одна часть головоломки, в которой упоминается неравенство Дворецкого-Кифера-Вулфовица, которое "показывает [...], что эмпирическая функция распределения равномерно сходится к истинной функции распределения, экспоненциально быстрой по вероятности".
Таким образом, в целом непараметрический метод начальной загрузки можно рассматривать как асимптотический метод, который создает «(приблизительное) непараметрическое неинформативное апостериорное распределение для нашего параметра» и где это приближение становится лучше «экспоненциально быстро» по мере увеличения числа выборок.
источник
Это последняя статья, которую я видел на эту тему:
источник
Я тоже был соблазнен как начальной загрузкой, так и теоремой Байеса, но я не мог понять смысла оправдания начальной загрузки, пока я не посмотрел на нее с байесовской точки зрения. Тогда - как я объясню ниже - распределение бутстрапа можно рассматривать как байесовское апостериорное распределение, что делает (a?) Обоснование бутстрапа очевидным, а также имеет преимущество в разъяснении сделанных предположений. Ниже приведено более подробное описание аргумента и сделанных допущений в https://arxiv.org/abs/1803.06214 (стр. 22-26).
В качестве примера, который настроен на электронную таблицу по адресу http://woodm.myweb.port.ac.uk/SL/resample.xlsx (нажмите на вкладку начальной загрузки в нижней части экрана), предположим, что у нас есть выборка из 9 измерений со средним значением 60. Когда я использовал электронную таблицу для получения 1000 повторных выборок с заменой из этой выборки и округлил средние значения до ближайшего четного числа, 82 из этих средних составляли 54. Идея начальной загрузки состоит в том, что мы используйте выборку в качестве «притворной» популяции, чтобы увидеть, насколько изменчивыми могут быть средние значения выборок из 9, так что это предполагает, что вероятность того, что среднее значение по выборке будет на 6 ниже среднего по совокупности (в данном случае притворная совокупность на основе выборка со средним значением 60) составляет 8,2%. И мы можем прийти к аналогичному выводу о других столбцах гистограммы передискретизации.
Теперь давайте представим, что истина в том, что среднее значение реальной популяции составляет 66. Если это так, то наша оценка вероятности того, что среднее значение для выборки будет 60 (т.е. данные), составляет 8,2% (используя заключение в параграфе выше, помня что 60 на 6 ниже среднего значения, предположенного в 66). Давайте напишем это как
P (данные приведены в среднем = 66) = 8,2%
и эта вероятность соответствует значению х 54 в распределении передискретизации. Аналогичные аргументы применимы к каждому возможному среднему значению от 0, 2, 4 ... 100. В каждом случае вероятность исходит из распределения повторной выборки, но это распределение отражается относительно среднего значения 60.
Теперь давайте применим теорему Байеса. Рассматриваемое измерение может принимать значения только от 0 до 100, поэтому при округлении до ближайшего четного числа средние значения вероятности составляют 0, 2, 4, 6, .... 100. Если мы предположим, что предыдущее распределение является плоским, каждое из них имеет априорную вероятность 2% (до 1 dp), и теорема Байеса говорит нам, что
P (PopMean = 66 данных) = 8,2% * 2% / P (данные)
где
P (Данные) = P (PopMean = 0 для данных) * 2% + P (PopMean = 2 для данных) * 2% + ... + P (PopMean = 100 для данных) * 2%
Теперь мы можем отменить 2% и помнить, что сумма вероятностей должна быть 1, так как вероятности просто те из распределения повторной выборки. Что оставляет нас с выводом, что
Р (PopMean = 66) = 8,2%
Помня, что 8,2% - это вероятность из распределения повторной выборки, соответствующего 54 (вместо 66), апостериорное распределение - это просто распределение повторной выборки, отраженное относительно среднего по выборке (60). Кроме того, если распределение повторной выборки симметрично в том смысле, что асимметрии являются случайными - как это происходит в этом и во многих других случаях, мы можем принять распределение повторной выборки как идентичное апостериорному распределению вероятности.
Этот аргумент делает различные предположения, главным из которых является то, что предыдущее распределение является равномерным. Они изложены более подробно в статье, приведенной выше.
источник