Зачем использовать ссылку logit в бета-регрессии?

14

Недавно я был заинтересован в реализации модели бета-регрессии, для получения результата, который является пропорцией. Обратите внимание, что этот результат не будет вписываться в биномиальный контекст, потому что в этом контексте нет осмысленной концепции дискретного «успеха». Фактически, результат - это пропорция продолжительности; числитель - это количество секунд, в течение которых определенное условие активно в течение общего количества секунд, в течение которых условие могло быть активным. Я прошу прощения за причуды, но я не хочу сосредотачиваться слишком сильно на этом конкретном контексте, потому что я понимаю, что существует целый ряд способов, которыми можно смоделировать такой процесс, кроме бета-регрессии, и сейчас я больше интересуюсь конкретно теоретическими вопросы, которые возникли в моих попытках реализовать такую ​​модель (хотя я, конечно,

В любом случае, все ресурсы, которые я смог найти, указали, что бета-регрессия обычно подходит с использованием ссылки logit (или probit / cloglog), а параметры интерпретируются как изменения в log-odds. Тем не менее, мне еще предстоит найти ссылку, которая фактически обеспечивает какое-либо реальное обоснование того, почему кто-то захочет использовать эту ссылку.

Оригинальная статья Ferrari & Cribari-Neto (2004) не дает оправдания; они отмечают только то, что функция logit является «особенно полезной» из-за интерпретации отношения шансов экспоненциальных параметров. Другие источники ссылаются на желание отобразить интервал (0,1) на реальную линию. Тем не менее, обязательно ли нам нужна функция связи для такого отображения, учитывая, что мы уже предполагаем бета-распределение? Какие преимущества дает функция ссылки, помимо ограничений, налагаемых при начале бета-распространения?Я провел несколько быстрых симуляций и не видел прогнозов вне интервала (0,1) с идентифицирующей связью, даже когда симулировал из бета-распределений, масса вероятности которых в значительной степени сгруппирована близко к 0 или 1, но, возможно, мои симуляции не были достаточно общими, чтобы поймать некоторые из патологий.

Мне кажется, основываясь на том, как люди на практике интерпретируют оценки параметров из моделей бета-регрессии (то есть как отношения шансов), что они неявно делают вывод относительно шансов «успеха»; то есть они используют бета-регрессию как замену биномиальной модели. Возможно, это уместно в некоторых контекстах, учитывая взаимосвязь между бета-версиями и биномиальными распределениями, но мне кажется, что это должен быть более частный случай, чем общий. В этом вопросе дан ответ для интерпретации отношения шансов по отношению к непрерывной пропорции, а не к результату, но мне кажется излишне громоздким пытаться интерпретировать вещи таким образом, в отличие от использования, скажем, журнала или идентификационная ссылка и интерпретация% изменений или сдвигов.

Итак, почему мы используем ссылку logit для моделей бета-регрессии? Это просто для удобства, чтобы связать это с биномиальными моделями?

Райан Симмонс
источник

Ответы:

8

грамм(μ):(0,1)рμ^знак равнограмм-1(Иксβ^)(0,1)Икс

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

Но, конечно, можно просто попробовать оба варианта и посмотреть, возникают ли проблемы с идентификационной связью и / или улучшает ли она соответствие модели.

μ^знак равно0,01Иксμ^0.02, Но это часто рассматривается очень небрежно в этих сценариях. Следовательно, я бы сказал, что для модели с ограниченным откликом параметры любой функции связи необходимо интерпретировать осторожно и, возможно, потребовать некоторой практики. Поэтому я обычно советую (как показано в другом обсуждении, которое вы связали в своем вопросе) взглянуть на эффекты для интересующих конфигураций регрессоров. Их легче интерпретировать и часто (но не всегда) они довольно похожи (с практической точки зрения) для различных функций связи.

Ахим Цейлейс
источник
10

Неверно, что логистическая регрессия может использоваться только для моделирования двоичных данных о результатах. Модель логистической регрессии подходит для любых данных, в которых 1) ожидаемое значение результата соответствует логистической кривой как функция предикторов 2) дисперсия результата представляет собой ожидаемый результат, умноженный на один минус ожидаемый результат (или некоторая его доля) 3) (следствие 2) данные находятся в диапазоне от 0 до 1. Эти свойства, безусловно, справедливы для данных Бернулли. Но следует предпринять некоторые статистические исследования и графики, прежде чем немедленно дискредитировать логистическую модель как жизнеспособное (и простое в реализации / объяснении) средство для ответа на научный вопрос.

Модель логистической регрессии является частным случаем обобщенной линейной модели (GLM), это означает, что согласованные оценки параметров и выводы даны моделью. Логистические модели используются для моделирования пропорций, порядковых переменных, ставок, результатов экзаменов, рангов и всевозможных недвоичных результатов в нескольких местах в литературе.

Извините, что этот ответ не направляет ваш вопрос позже, но утверждение предыдущих рассуждений вызывает заблуждение, которое стоит рассмотреть.

Многие пользователи R считают, что «предупреждение», возникающее в результате согласования непрерывного ответа с логистическими моделями, должно быть исключено. А «середина дороги» , как это изменение family=binomialк family=quasibinomial. Пример моделирования этих данных, подбора модели и получения правильного вывода показан здесь:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

Дает точный охват CI на 90%

Adamo
источник
1
Я действительно ценю разъяснения, данные в отношении модели логистической регрессии. Вы правы, что это более общая модель, чем часто предполагают. Я не решаются принять это как ответ, однако, потому что кажется , что это не совсем развивать линию рассуждений достаточно. Мне кажется, вы говорите, что мои опасения по поводу ссылки на логит в бета-модели необоснованны, потому что ссылка на логит отлично работает с недвоичными данными. Это разумная позиция, но я чувствую, что не совсем понимаю суть моего вопроса о том, почему мы используем logit в бета-модели и как его интерпретировать.
Райан Симмонс
1
@RyanSimmons Спасибо за отзыв. Я согласен с твоими рассуждениями здесь. Я думаю, что любая «возможность учиться» требует ответа, и поэтому один вопрос может иметь много возможных ответов с различной степенью «правильности». Я не затронул ваш вопрос, который является хорошим, поэтому «правильный» ответ может появиться еще. Мне самому это интересно, поэтому я пытаюсь прочитать об этом немного подробнее.
AdamO