Я часто говорю, что люди заимствуют или обмениваются информацией в байесовских иерархических моделях. Кажется, я не могу получить прямой ответ о том, что это на самом деле означает и является ли это уникальным для байесовских иерархических моделей. Я вроде понял: некоторые уровни в вашей иерархии имеют общий параметр. Я понятия не имею, как это переводится как «заимствование информации».
Является ли «заимствование информации» / «обмен информацией» модным словом, которое люди любят выбрасывать?
Есть ли пример с закрытыми формами постеров, который иллюстрирует этот феномен совместного использования?
Это уникально для байесовского анализа? Обычно, когда я вижу примеры «заимствования информации», это просто смешанные модели. Может быть, я изучил эти модели старомодным способом, но я не вижу никакого обмена.
Я не заинтересован в том, чтобы начинать философские дебаты о методах. Мне просто любопытно использовать этот термин.
Ответы:
Этот термин специально взят из эмпирического байесовского алгоритма (EB), на самом деле концепция, к которой он относится, не существует в истинном байесовском выводе. Первоначальный термин был «сила заимствования», который был придуман Джоном Тьюки еще в 1960-х годах и популяризирован Брэдли Эфроном и Карлом Моррисом в серии статистических статей о парадоксе и параметрическом ЭБ Штейна в 1970-х и 1980-х годах. Многие люди теперь используют «заимствование информации» или «обмен информацией» в качестве синонимов для одной и той же концепции. Причина, по которой вы можете услышать это в контексте смешанных моделей, заключается в том, что наиболее распространенные анализы для смешанных моделей имеют интерпретацию EB.
EB имеет много применений и применяется ко многим статистическим моделям, но контекст всегда заключается в том, что у вас есть большое количество (возможно, независимых) наблюдений, и вы пытаетесь оценить конкретный параметр (например, среднее значение или дисперсию) в каждом случае. В байесовском выводе вы делаете последующие выводы о параметре, основываясь как на данных наблюдений для каждого случая, так и на предыдущем распределении для этого параметра. В выводе EB предварительное распределение для параметра оценивается из всей совокупности случаев данных, после чего вывод происходит так же, как для байесовского вывода. Следовательно, когда вы оцениваете параметр для конкретного случая, вы используете как данные для этого случая, так и предполагаемое предыдущее распределение, а последнее представляет «информацию» или «силу»
Теперь вы можете понять, почему у EB есть «заимствование», а у истинного Байеса - нет. В истинном Байесе предварительное распределение уже существует, поэтому его не нужно просить или заимствовать. В EB предварительное распределение было создано из самих данных наблюдений. Когда мы делаем вывод о конкретном случае, мы используем всю наблюдаемую информацию из этого случая и немного информации из каждого из других случаев. Мы говорим, что это только «заимствовано», потому что информация возвращается, когда мы переходим к следующему делу.
Идея EB и «заимствование информации» широко используется в статистической геномике, когда каждый «случай» обычно представляет собой ген или геномную особенность (Smyth, 2004; Phipson et al, 2016).
использованная литература
Эфрон, Брэдли и Карл Моррис. Парадокс Штейна в статистике. Scientific American 236, нет. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf
Смит Г.К. (2004). Линейные модели и эмпирические байесовские методы оценки дифференциальной экспрессии в экспериментах с микрочипами. Статистические приложения в генетике и молекулярной биологии Том 3, выпуск 1, статья 3. http://www.statsci.org/smyth/pubs/ebayes.pdf
Phipson, B, Lee, S, Majewski, IJ, Alexander, WS, и Smyth, GK (2016). Надежная оценка гиперпараметра защищает от гипервариабельных генов и повышает способность определять дифференциальную экспрессию. Анналы прикладной статистики 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920
источник
Рассмотрим простую задачу, такую как оценка средних для нескольких групп. Если ваша модель рассматривает их как совершенно не связанные, то единственная информация, которую вы имеете о каждом значении, - это информация в этой группе. Если ваша модель рассматривает их средства как несколько связанные (например, в некоторой модели типа смешанных эффектов), то оценки будут более точными, потому что информация из других групп информирует (упорядочивает, сокращает в сторону общего среднего) оценку для данной группы. Это пример «заимствования информации».
Понятие возникает в актуарной работе, связанной с достоверностью (не обязательно с этим конкретным термином «заимствование», хотя заимствование в этом смысле явно указано в формулах); это проделано долгий путь, по крайней мере, сто лет назад, с явными предшественниками, восходящими к середине девятнадцатого века. Например, см. Longley-Cook, LH (1962) Введение в теорию правдоподобия PCAS, 49, 194-221.
Вот Уитни, 1918 (Theory of Experience Rating, PCAS, 4, 274-292):
Хотя термин «заимствование» здесь отсутствует, понятие использования информации на уровне группы для информирования нас об этом механическом цехе явно присутствует. [Понятия остаются неизменными, когда «сила заимствования» и «информация о заимствовании» начинают применяться к этой ситуации]
источник
Наконец, многоуровневое моделирование - это не просто смешанные эффекты, хотя они являются наиболее распространенными. Любую модель, в которой на параметры влияют не только априоры и данные, но и другие неизвестные параметры, можно назвать многоуровневой моделью. Конечно, это очень гибкий набор моделей, но он может быть написан с нуля и соответствовать минимальному объему работы с использованием таких инструментов, как Stan, NIMBLE, JAGS и т. Д. В этом смысле я не уверен, что скажу многоуровневый моделирование - это «ажиотаж»; в принципе, вы можете написать любую модель, которая может быть представлена в виде направленного ациклического графаи установите его немедленно (при условии, что он имеет разумное время выполнения). Это дает гораздо большую мощность и потенциальную креативность, чем традиционный выбор (т. Е. Пакеты регрессионных моделей), но при этом не требует создания целого R-пакета с нуля, чтобы соответствовать модели нового типа.
источник
Я предполагаю, что, поскольку вы пометили машинное обучение, что вы заинтересованы в предсказании, а не в умозаключении (я думаю, что я согласен с ответом @Glen_b, но просто перевожу этот контекст / словарь)
Я бы сказал, что в этом случае это модное слово. Регуляризованная линейная модель с групповой переменной будет заимствовать информацию: прогноз на индивидуальном уровне будет сочетать среднее по группе и индивидуальный эффект. Один из способов представить регуляризацию l1 / l2 состоит в том, что она присваивает коэффициент затрат на уменьшение общей ошибки, поскольку групповая переменная влияет на большее количество выборок, чем на отдельную переменную, поэтому будет необходимо оценить групповой эффект, оставив меньшее отклонение от групповой эффект для каждой отдельной переменной.
Для отдельных точек с достаточным количеством данных индивидуальный эффект будет «сильным», для тех, у которых мало данных, эффект будет слабым.
Я думаю, что самый простой способ увидеть это - рассмотреть регуляризацию L1 и 3 человека из одной группы с одинаковым эффектом. Нерегулярная проблема имеет бесконечное число решений, тогда как регуляризация дает единственное решение.
Присвоение всего эффекта групповому коэффициенту имеет самую низкую норму l1, поскольку нам нужно только 1 значение, чтобы охватить 3 человека. И наоборот, назначение всего эффекта отдельным коэффициентам имеет худшее значение, а именно, в 3 раза больше нормы l1 назначения эффекта групповому коэффициенту.
Обратите внимание, что у нас может быть столько иерархий, сколько мы хотим, и на взаимодействия влияют одинаково: регуляризация будет продвигать эффекты к основным переменным, а не к более редким взаимодействиям.
Блог tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - связано с @IsabellaGhement дает цитату для заимствования силы
«Этот эффект иногда называют усадкой, потому что усадка более экстремальных значений стремится к более разумному, более среднему значению. В книге lme4 Дуглас Бейтс предоставляет альтернативу усадке [имя]»
источник
Другой источник, который я хотел бы рекомендовать по этой теме, который я считаю особенно поучительным, - «Введение Эмпирического Байеса» Дэвида Робинсона .
Его бегущим примером является то, удастся ли бейсболисту ударить следующий брошенный в него мяч. Ключевая идея заключается в том, что если игрок присутствует в течение многих лет, у него есть достаточно четкое представление о том, насколько он способен, и, в частности, можно использовать его наблюдаемое среднее значение ватина в качестве довольно хорошей оценки вероятности успеха в следующем шаге.
И наоборот, игрок, который только начал играть в лиге, еще не раскрыл большую часть своего настоящего таланта. Таким образом, кажется мудрым выбор скорректировать оценку вероятности его успеха в сторону некоторого общего среднего значения, если он был особенно успешен или неуспешен в своих первых нескольких играх, поскольку это, по крайней мере, в некоторой степени, связано с удачей или неудачей ,
Как незначительный момент, термин «заимствование», безусловно, не используется в том смысле, что что-то, что было заимствовано, должно быть возвращено в какой-то момент ;-).
источник