Почему регрессия Бета / Дирихле не считается обобщенной линейной моделью?

26

Предпосылка это цитата из виньетки R пакета betareg1 .

Более того, модель разделяет некоторые свойства (такие как линейный предиктор, функция связи, параметр дисперсии) с обобщенными линейными моделями (GLM; McCullagh and Nelder 1989), но это не частный случай этой структуры (даже для фиксированной дисперсии) )

Этот ответ также намекает на тот факт:

[...] Это тип регрессионной модели, который подходит, когда переменная ответа распространяется как бета-версия. Вы можете думать об этом как об аналоге обобщенной линейной модели. Это именно то, что вы ищете [...] (выделение мое)

Название вопроса говорит само за себя: почему регрессия Бета / Дирихле не считается обобщенной линейной моделью (не так ли)?


Насколько я знаю, Обобщенная линейная модель определяет модели, построенные на ожидании их зависимых переменных, зависящих от независимых.

g Y X β σ 2f - функция связи, которая отображает ожидание, - распределение вероятностей, - результаты и - предикторы, - линейные параметры и дисперсия.gYXβσ2

f(E(YX))g(βX,Iσ2)

Различные GLM навязывают (или ослабляют) взаимосвязь между средним и дисперсией, но должно быть распределением вероятностей в экспоненциальном семействе, желательным свойством, которое должно улучшить надежность оценки, если я правильно помню. Однако дистрибутивы Beta и Dirichlet являются частью экспоненциального семейства, поэтому у меня нет идей.g


[1] Cribari-Neto, F. & Zeileis, A. (2009). Бета-регрессия в R.

поджигатель
источник
2
(+1) Связано: stats.stackexchange.com/a/189196 .
говорит амеба, восстанови Монику
@amoeba Спасибо за ссылку, не видел этот вопрос раньше.
Firebug
2
Я думаю, что проблема в том, что если вы пишете бета-распределение со стандартными параметрами , (то есть подразумевает равномерное (0,1)), то бета-распределение находится в экспоненциальном семействе, если вы напишите его в терминах (среднее) и (дисперсия) это не так. Но я никогда не заботился о том, находится ли распределение в экспоненциальной семье. b a = b = 1 μ ϕaba=b=1μϕ
Клифф AB
@CliffAB После прочтения комментариев под ответом Тима ниже, кажется, что параметризация бета-версии приводит к неортогональности параметров, что, по-видимому, является требованием для GLM МакКалла-Нелдера.
Firebug
1
Я думаю, что этот короткий ответ: stats.stackexchange.com/a/18812/28666 уместен и дополняет ответы здесь (намекает на то, почему GLM были первоначально определены с семейством экспоненциальной дисперсии).
говорит амеба: восстанови

Ответы:

20

Проверьте исходную ссылку:

Ferrari, S. & Cribari-Neto, F. (2004). Бета-регрессия для моделирования скоростей и пропорций. Журнал прикладной статистики, 31 (7), 799-815.

Как отмечают авторы, параметры пере-параметризованного бета-распределения коррелируют, поэтому

Обратите внимание, что параметры и не являются ортогональными, в отличие от того, что проверено в классе обобщенных моделей линейной регрессии (McCullagh and Nelder, 1989).ϕβϕ

Таким образом, хотя модель выглядит как GLM и крякает как GLM, она не совсем соответствует структуре.

Тим
источник
7
+1 но было бы здорово иметь более подробный ответ. Лично я не понимаю цитату (даже после открытия связанной статьи). Почему эти параметры не являются ортогональными в бета-регрессии? .. Почему это требуется для GLM? .. И т. Д.
говорит амеба Reinstate Monica
3
@amoeba честно, я не из тех людей, кто может дать вам подробный ответ на этот вопрос. Я никогда не был настолько заинтересован в теории, лежащей в основе GLM, чтобы иметь достаточно глубокое понимание таких тонкостей. Маккалла и Нелдер упоминают это требование, но мне нужно проверить их книгу, чтобы понять, почему именно это важно. Если бы кто-то подробно объяснил, почему это проблема, я бы подумал о том, чтобы получить награду за такой ответ.
Тим
9
Важным является требование ортогональности в GLM: это означает, что вы можете оценить уравнение не беспокоясь о неправильном определении остальной вероятности. Оценки параметров непротиворечивы, если приведенное выше среднее уравнение правильно указано. Вывод действителен, если дополнительно правильно указана дисперсия. Однако в бета-регрессии вы не можете разделить два модельных уравнения таким образом, даже если - это просто константа. Для последовательных результатов все должно быть указано правильно. ϕg(μ)=xβϕ
Ахим Цейлейс
3
@AchimZeileis Я вспомнил, что видел твое имя в резюме. То, что вы говорите, имеет смысл. Может быть, вы хотели бы преобразовать свой комментарий в ответ, добавив еще несколько обоснований? Как я уже сказал, я был бы рад назначить награду за того, кто дал достаточно подробный ответ на вопрос.
Тим
2
@Tim постараюсь сделать это, когда у меня будет больше времени. Вот почему я думал, что быстрый комментарий лучше, чем ничего ...
Ахим Цейлейс
8

Ответ @probabilityislogic находится на правильном пути.

Бета-распределение находится в двухпараметрическом экспоненциальном семействе . Простые модели GLM, описанные Nelder и Wedderburn (1972) , не включают в себя все распределения в двухпараметрическом семействе экспонент.

С точки зрения статьи N & W, GLM применяется к функциям плотности следующего типа (это позже было названо семейством экспоненциальной дисперсии в Jørgensen 1987 ):

π(z;θ,ϕ)=exp[α(ϕ){zθg(θ)+h(z)}+β(ϕ,z)]

с дополнительной функцией связи и линейной моделью для естественного параметра .θ = f ( μ ) = f ( X β )f()θ=f(μ)=f(Xβ)


Таким образом, мы могли бы также переписать вышеприведенный дистрибутив:

π(z;μ,ϕ)=exp[z(f(μ)α(ϕ))+h(z)α(ϕ)g(f(μ))α(ϕ)+β(ϕ,z)]

Семейство экспонент с двумя параметрами:

f(z;θ1,θ2)=exp[T1(z)η1(θ1,θ2)+T2(z)η2(θ1,θ2)g(θ1,θ2)+h(z)]

который выглядит похожим, но более общим (также, если один из является постоянным).θ


Разница очевидна, и также невозможно представить бета-дистрибутив в форме GLM.

Тем не менее, мне не хватает понимания, чтобы создать более интуитивный и хорошо информированный ответ (у меня есть ощущение, что могут быть более глубокие и элегантные отношения с различными фундаментальными принципами). GLM обобщает распределение ошибки, используя модель экспоненциальной дисперсии с одной вариацией вместо модели наименьших квадратов, и обобщает линейную зависимость в среднем, используя функцию связи.

Лучшей и самой простой интуицией, по-видимому, является дисперсионный -термин в экспоненте, который умножается на все и, следовательно, дисперсия не меняется с . Принимая во внимание, что несколько двухпараметрических экспоненциальных семейств и методы квази-правдоподобия позволяют параметру дисперсии также быть функцией .θ θα(ϕ)θθ

Секст Эмпирик
источник
Второй параметр в N & W, определенный df, является дисперсией. Это расширяет однопараметрическое натуральное экспоненциальное семействоπ ( z ; θ )ϕπ(z;θ)
Sextus
@amoeba beta - это двумерное экспоненциальное семейное распределение, например, www2.stat.duke.edu/courses/Spring11/sta114/lec/expofam.pdf
Тим
2
Я не уверен, если это не совсем возможно, даже с фиксированной дисперсией. По крайней мере, не в соответствии с GLM, как заявлено N & W (я знаю, что многие люди делают гораздо более сложные вещи, чтобы решить бета-регрессию). Я отредактирую ответ, чтобы показать, что происходит и где оно идет не так, если мы попытаемся следовать по тому же пути итеративных переоцененных наименьших квадратов.
Секст Эмпирик
2
Я несколько отредактировал ответ. 1) Мое первоначальное описание семейств и моделей рассеяния было неверным. GLM включает в себя все распределения экспоненциальных семейств с одним параметром, потому что это не только функция плотности, но и функция связи. 2) С точки зрения лучшего интуитивного представления я не мог уйти далеко и не ожидаю, что скоро уйду далеко. Модели GLM относятся к классической модели в различных представлениях, добавляя веса к матричной формулировке процедур подбора, производных логарифмических функций правдоподобия, включая члены с функцией связи и дисперсией, .....
Sextus
2
Я позволил себе немного отредактировать ваш ответ, надеюсь, у вас все в порядке с изменениями. Кроме того, похоже, что этот ответ stats.stackexchange.com/a/18812/28666 подсказывает, почему N & W использовала именно это семейство дистрибутивов, а не более широкое.
говорит амеба: восстанови Монику
2

Я не думаю, что бета-распределение является частью семейства экспоненциальной дисперсии . Чтобы получить это, вам нужно иметь плотность

f(y;θ,τ)=exp(yθc(θ)τ+d(y,τ))

для указанных функций и . Среднее значение дается как а дисперсия дается как . Параметр называется каноническим параметром.c()d()c(θ)τc(θ)θ

Бета-дистрибутив не может быть написан таким образом - один из способов увидеть это, заметив, что в журнале нет вероятности термина - вместо него есть иylog[y]log[1y]

fbeta(y;μ,ϕ)=exp(ϕμlog[y1y]+ϕlog[1y]log[B(ϕμ,ϕ(1μ)]log[y1y])

Еще один способ увидеть, что бета не является экспоненциальным семейством дисперсий, состоит в том, что его можно записать в виде где и независимы и оба следуют гамма-распределению с одинаковым параметром масштаба (и гаммой это экспоненциальная семья).y=xx+zxz

probabilityislogic
источник
1
Этот ответ не является правильным, как написано. Один из способов убедиться в этом состоит в том, что, согласно представленной логике, распределения Бернулли и биномиальные, например, также не будут относиться к классу экспоненциальных семейств.
кардинал
2
Извините, вы правы, что приведенный мной пример был ошибочным. (Предупреждение: интеллектуальная арифметика и мобильное использование CrossValidated может быть опасным!) Однако моя точка зрения остается в силе . Этот ответ неверен, потому что он выбирает очень узко «определенную» концепцию «экспоненциального семейства» - гораздо уже, чем любой традиционный источник или практическое использование.
кардинал
2
Хм. Википедия перечисляет бета-версию в списке экспоненциальных семейств.
говорит амеба: восстанови
1
Правда - я думал о естественной экспоненциальной семье - что является особым случаем
вероятностная
1
Параметр в функции также описывается функцией связи, и затем эта узко определенная функция распределения становится более широкой, включая все распределения экспоненциального семейства с одним параметром, но только некоторые из экспоненциального семейства с двумя параметрами. θ
Секст Эмпирик