Смещения можно использовать в любой регрессионной модели, но они гораздо чаще встречаются при работе с данными подсчета для вашей переменной ответа. Смещение - это просто переменная, для которой в модели используется коэффициент 1 . (Смотрите также эту превосходную ветку резюме: когда использовать смещение в регрессии Пуассона? )
При правильном использовании с данными подсчета это позволит вам моделировать показатели вместо подсчета . Если это представляет интерес, то это что-то делать. Таким образом, это контекст, в котором смещения используются наиболее часто. Давайте рассмотрим пуассоновский GLiM с лог-ссылкой (которая является канонической).
пер( λ )пер( λт я м е)пер( λ ) - ln( Т я м е )пер( λ )пер( λ )= β0+ β1Икс= β0+ β1Икс⇒= β0+ β1Икс= β0+ β1Икс+ 1 × ln( Т я м е )≠= β0+ β1Икс+ β2× ln( Т я м е )ж ч е н р 2≠ 1( С о у н т ы )(rates)(still rates)(counts again)
(Как видите, ключ к правильному использованию смещения должен сделать смещением, а не t i m e .) ln(time)time
Когда коэффициент на не равен 1 , вы больше не моделируете скорости. Но так как β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) обеспечивает гораздо большую гибкость для подгонки данных, модели, которые не используют ln ( t i m e ) в качестве смещения, как правило, подойдут лучше (хотя они могут тоже наряд). ln(time)1β2∈(−∞,1)∪(1,∞)ln(time)
Нужно ли вам моделировать счет или ставку на самом деле, зависит от вашего основного вопроса. Вы должны смоделировать тот, который соответствует тому, что вы хотите знать.
Что касается того, что может означать, что не равно 1 , рассмотрим пример, где время не является рассматриваемой переменной. Представьте себе изучение количества хирургических осложнений в разных больницах. В одной больнице имеется гораздо больше сообщений о хирургических осложнениях, но они могут утверждать, что сравнение несправедливо, потому что они делают гораздо больше операций. Таким образом, вы решили попытаться контролировать это. Вы можете просто использовать журнал количества операций в качестве смещения, который позволит вам изучить частоту осложнений на операцию. Вы также можете использовать журнал количества операций в качестве другого ковариата. Допустим, коэффициент существенно отличается от 1 . Если β 2 > 1β211β2>1тогда в больницах, которые проводят больше операций, частота осложнений выше (возможно, потому, что они торопятся с работой, чтобы сделать больше). Если , больницы, которые делают больше всего, имеют меньше осложнений на операцию (возможно, у них есть лучшие врачи, и поэтому делают больше и делают их лучше). β2<1
Понять, как это могло бы произойти, если бы рассматриваемой переменной было время, немного сложнее. Распределение Пуассона возникает в результате процесса Пуассона , в котором время между событиями экспоненциально распределено, и, следовательно, существует естественная связь с анализом выживания. В анализе выживаемости время до событий часто не распределяется как экспоненциальное, но базовая опасность может со временем увеличиваться или уменьшаться. Таким образом, рассмотрим случай, когда вы моделируете количество событий, которые происходят после некоторой естественной отправной точки. Если , это означает, что скорость событий увеличивается, тогда как если β 2 < 1β2> 1β2< 1, это означает, что скорость событий замедляется.
Для конкретного примера первого, представьте сканирование, которое подсчитывает количество раковых клеток за период времени после того, как первоначальная опухоль была удалена хирургическим путем. У некоторых пациентов с момента операции прошло больше времени, и вы хотели принять это во внимание. Поскольку после того, как рак восстановился, он начнет расти в геометрической прогрессии, частота будет увеличиваться с течением времени после операции без дополнительного лечения.
В качестве конкретного примера последнего рассмотрим число людей, которые умирают от вспышки болезни, от которой у нас нет лечения. Сначала многие люди умирают из-за того, что они были более восприимчивы к этому заболеванию или уже имели ослабленную иммунную систему и т. Д. Со временем, когда оставшееся число людей становится менее восприимчивым к этому заболеванию, показатель будет снижаться. (Извините, этот пример настолько болезненный.)
Смещения времени обычно можно рассматривать как вашу модель, оценивающую частоту возникновения события в единицу времени, причем смещение контролирует продолжительность наблюдения различных объектов.
В пуассоновских моделях вы всегда оцениваете скорость, с которой что-то происходит, но вы никогда не сможете наблюдать эту скорость напрямую. Вы действительно получите , чтобы наблюдать количество раз , что событие происходит в течение некоторого количества времени. Смещение устанавливает связь между этими двумя понятиями.
Например, вы наблюдали, как предметы снимали корзины в течение различного времени, и подсчитывали количество успешных корзин для каждого предмета. Что вас действительно интересует, так это то, как часто каждый субъект поглощает корзину, т. Е. Количество успешных корзин, которые каждый субъект ожидает снижать каждую минуту, поскольку это несколько объективный показатель их умения. Количество корзин, которые вы действительно наблюдали, в этом случае будет равно расчетной норме, умноженной на то, сколько времени вы наблюдали за попыткой субъекта. Таким образом, вы можете думать с точки зрения единиц ответа, количества корзин в минуту .
Трудно представить себе ситуацию, в которой вы использовали бы время, наблюдаемое как ковариату в регрессии Пуассона, поскольку по самой своей природе вы оцениваете коэффициент.
Вот пример, который, мы надеемся, подчеркивает опасность этого. Предположим, что американцы и европейцы, по правде говоря, утопают одинаковое количество корзин каждую минуту. Но скажем, что мы наблюдали каждого европейца в два раза дольше каждого американца, поэтому в среднем мы наблюдали вдвое больше корзин для каждого европейца.
Если мы настроим модель, включающую параметры как для наблюдаемого времени, так и для индикатора «является европейским», то обе эти модели поясняют данные:
(гдес некоторая константа, которая является истинным показателем того, что оба типа игроков делают корзины).
Как статистик, мы действительно хотим, чтобы в этой ситуации наша модель информировала нас об отсутствии статистической разницы между скоростью, с которой европейцы делают корзины, и скоростью, которую американцы делают корзины. Но наша модель не смогла этого сделать, и мы растерялись.
Проблема в том, что мы знаем то, чего не знает наша модель . То есть мы знаем, что если мы наблюдаем одного и того же человека в два раза больше времени, то в ожидании они сделают в два раза больше корзин. Поскольку мы это знаем, нам нужно рассказать об этом нашей модели. Это то, что выполняет смещение.
Да, но это предположение самой модели Пуассона . Со страницы Википедии о распределении Пуассона
источник