Я выполняю регрессию Пуассона с конечной целью сравнения (и взятия разности) предсказанного среднего значения между двумя уровнями фактора в моей модели: , удерживая другие модельные ковариаты (которые являются двоичными) постоянными. Мне было интересно, если кто-нибудь может дать несколько практических советов о том, когда использовать ссылку на журнал, а не ссылку на личность. Каковы плюсы и минусы этих двух различных функций связи в регрессии Пуассона, учитывая мою цель сравнения различий?
Я также имею в виду ту же цель для логистической / биномиальной регрессии (использовать ссылку логита или идентификационную ссылку) для сравнения различий в пропорциях между двумя уровнями фактора и нуждаюсь в аналогичном совете. Я читал некоторые из постов здесь, которые касаются этой проблемы, но ни один, кажется, не объясняет, почему или когда можно было бы выбрать одну ссылку над другой и каковы могут быть плюсы / минусы. Заранее спасибо за помощь!
ОБНОВИТЬ:
Я также понимаю, что основная цель использования определенных функций связей состоит в том, чтобы ограничить диапазон возможных прогнозируемых значений диапазоном среднего отклика (например, для логистики диапазон ограничен значениями от 0 до 1 и для журнала). ссылка, прогнозы ограничены, чтобы быть положительными числами). Итак, я предполагаю, что я спрашиваю, что если я использую идентификационную ссылку, скажем, для логистической / биномиальной регрессии, и мои результаты находятся в диапазоне (0,1), действительно ли есть необходимость использовать функцию логистической ссылки или Могу ли я просто сделать мысли проще использовать идентификационную ссылку?
источник
Ответы:
Минусы идентификационной ссылки в случае регрессии Пуассона:
Но, в конечном счете, это эмпирический вопрос. Подходят обе модели. Выполните все проверки, которые вам нравятся. Если идентификационная ссылка имеет более низкий AIC, а также хорошо или лучше подходит для всех остальных ваших проверок, запустите идентификационную ссылку.
В случае логит-модели против линейной вероятностной модели (то есть того, что вы называете идентификационной связью), ситуация намного проще. За исключением некоторых очень экзотических случаев в эконометрике (которые вы найдете, если выполните поиск), модель логита лучше: она делает меньше предположений и используется большинством людей. Использование линейной вероятностной модели на ее месте могло бы оказаться извращенным.
Что касается интерпретации моделей, если вы используете R, есть два замечательных пакета, которые сделают всю тяжелую работу: эффекты , которые очень просты в использовании, и zelig , которые сложнее в использовании, но хороши, если вы хотите делать прогнозы ,
источник
В случае моделей Пуассона я бы также сказал, что приложение часто диктует, будут ли ваши ковариаты действовать аддитивно (что затем будет означать идентификационную ссылку) или мультипликативно в линейном масштабе (что затем будет подразумевать лог-ссылку). Но модели Пуассона с тождественной связью также, как правило, имеют смысл и могут стабильно подходить только в том случае, если на навязанные коэффициенты накладываются ограничения неотрицательности - это можно сделать с помощью
nnpois
функции вaddreg
пакете R или с помощьюnnlm
функции вNNLM
пакет. Поэтому я не согласен с тем, что модели Пуассона следует согласовывать как с идентификационной, так и с журнальной связью, и посмотреть, какая из них в итоге будет иметь лучший AIC, и вывести лучшую модель на основе чисто статистических соображений - скорее, в большинстве случаев это диктуется основная структура проблемы, которую каждый пытается решить, или данные под рукой.Например, в хроматографии (анализ ГХ / МС) часто измеряют наложенный сигнал из нескольких пиков приблизительно гауссовой формы, и этот наложенный сигнал измеряется с помощью умножителя электронов, что означает, что измеренный сигнал представляет собой счетчик ионов и, следовательно, распределение Пуассона. Поскольку каждый из пиков по определению имеет положительную высоту и действует аддитивно, а шумом является Пуассон, здесь будет уместна неотрицательная модель Пуассона с тождественной связью, а логарифмическая связь - модель Пуассона будет совершенно неверной. В разработке потеря Кулбека-Лейблера часто используется в качестве функции потерь для таких моделей, и минимизация этой потери эквивалентна оптимизации вероятности неотрицательной модели Пуассона с тождественным звеном (есть также другие меры расхождения / потери, такие как расхождение альфа или бета что есть пуассон как частный случай).
Ниже приведен числовой пример, включающий демонстрацию того, что обычная неограниченная тождественная ссылка Пуассона GLM не подходит (из-за отсутствия ограничений неотрицательности), и некоторые подробности о том, как подобрать неотрицательные модели Пуассона с тождественной связью, используя
nnpois
здесь, в контексте деконволюции измеренной суперпозиции хроматографических пиков с пуассоновским шумом на них, используя полосчатую ковариатную матрицу, которая содержит сдвинутые копии измеренной формы одного пика. Неотрицательность здесь важна по нескольким причинам: (1) это единственная реалистичная модель для имеющихся данных (пики здесь не могут иметь отрицательную высоту), (2) это единственный способ стабильно согласовать модель Пуассона с тождественной связью (как в противном случае предсказания для некоторых ковариатных значений могут стать отрицательными, что не имеет смысла и приведет к численным проблемам, когда кто-то попытается оценить вероятность), (3) неотрицательность действует для регуляризации проблемы регрессии и значительно помогает получить стабильные оценки (например, Вы, как правило, не получаете проблем с переоснащением, как с обычной неограниченной регрессией,ограничения неотрицательности приводят к более редким оценкам, которые часто ближе к основной истине; для проблемы деконволюции, приведенной ниже, например, производительность примерно такая же, как и для регуляризации LASSO, но без необходимости настройки какого-либо параметра регуляризации. ( Штрафная регрессия L0-псевдонорм все еще работает немного лучше, но с большими вычислительными затратами )источник