Почему регрессия Бета / Дирихле не считается обобщенной линейной моделью?

Предпосылка это цитата из виньетки R пакета betareg¹ .

Более того, модель разделяет некоторые свойства (такие как линейный предиктор, функция связи, параметр дисперсии) с обобщенными линейными моделями (GLM; McCullagh and Nelder 1989), но это не частный случай этой структуры (даже для фиксированной дисперсии) )

Этот ответ также намекает на тот факт:

[...] Это тип регрессионной модели, который подходит, когда переменная ответа распространяется как бета-версия. Вы можете думать об этом как об аналоге обобщенной линейной модели. Это именно то, что вы ищете [...] (выделение мое)

Название вопроса говорит само за себя: почему регрессия Бета / Дирихле не считается обобщенной линейной моделью (не так ли)?

Насколько я знаю, Обобщенная линейная модель определяет модели, построенные на ожидании их зависимых переменных, зависящих от независимых.

$f$ - функция связи, которая отображает ожидание, - распределение вероятностей, - результаты и - предикторы, - линейные параметры и дисперсия. $g$ $Y$ $X$ $\beta$ $\sigma^2$

f (E (Y ∣ X)) \sim g (β X, I σ^{2})

$f\left(\mathbb E\left(Y\mid X\right)\right) \sim g(\beta X, I\sigma^2)$

Различные GLM навязывают (или ослабляют) взаимосвязь между средним и дисперсией, но должно быть распределением вероятностей в экспоненциальном семействе, желательным свойством, которое должно улучшить надежность оценки, если я правильно помню. Однако дистрибутивы Beta и Dirichlet являются частью экспоненциального семейства, поэтому у меня нет идей. $g$

[1] Cribari-Neto, F. & Zeileis, A. (2009). Бета-регрессия в R.

generalized-linear-model beta-regression dirichlet-regression поджигатель
источник

(+1) Связано: stats.stackexchange.com/a/189196 .

говорит амеба, восстанови Монику

@amoeba Спасибо за ссылку, не видел этот вопрос раньше.

Firebug

Я думаю, что проблема в том, что если вы пишете бета-распределение со стандартными параметрами , (то есть подразумевает равномерное (0,1)), то бета-распределение находится в экспоненциальном семействе, если вы напишите его в терминах (среднее) и (дисперсия) это не так. Но я никогда не заботился о том, находится ли распределение в экспоненциальной семье.

a

$a$

b

$b$

a = b = 1

$a = b = 1$

μ

$\mu$

ϕ

$\phi$

Клифф AB

@CliffAB После прочтения комментариев под ответом Тима ниже, кажется, что параметризация бета-версии приводит к неортогональности параметров, что, по-видимому, является требованием для GLM МакКалла-Нелдера.

Firebug

Я думаю, что этот короткий ответ: stats.stackexchange.com/a/18812/28666 уместен и дополняет ответы здесь (намекает на то, почему GLM были первоначально определены с семейством экспоненциальной дисперсии).

говорит амеба: восстанови

Ответы:

Проверьте исходную ссылку:

Ferrari, S. & Cribari-Neto, F. (2004). Бета-регрессия для моделирования скоростей и пропорций. Журнал прикладной статистики, 31 (7), 799-815.

Как отмечают авторы, параметры пере-параметризованного бета-распределения коррелируют, поэтому

Обратите внимание, что параметры и не являются ортогональными, в отличие от того, что проверено в классе обобщенных моделей линейной регрессии (McCullagh and Nelder, 1989). $\beta$ $\phi$

Таким образом, хотя модель выглядит как GLM и крякает как GLM, она не совсем соответствует структуре.

Тим
источник

+1 но было бы здорово иметь более подробный ответ. Лично я не понимаю цитату (даже после открытия связанной статьи). Почему эти параметры не являются ортогональными в бета-регрессии? .. Почему это требуется для GLM? .. И т. Д.

говорит амеба Reinstate Monica

@amoeba честно, я не из тех людей, кто может дать вам подробный ответ на этот вопрос. Я никогда не был настолько заинтересован в теории, лежащей в основе GLM, чтобы иметь достаточно глубокое понимание таких тонкостей. Маккалла и Нелдер упоминают это требование, но мне нужно проверить их книгу, чтобы понять, почему именно это важно. Если бы кто-то подробно объяснил, почему это проблема, я бы подумал о том, чтобы получить награду за такой ответ.

Тим

Важным является требование ортогональности в GLM: это означает, что вы можете оценить уравнение не беспокоясь о неправильном определении остальной вероятности. Оценки параметров непротиворечивы, если приведенное выше среднее уравнение правильно указано. Вывод действителен, если дополнительно правильно указана дисперсия. Однако в бета-регрессии вы не можете разделить два модельных уравнения таким образом, даже если - это просто константа. Для последовательных результатов все должно быть указано правильно.

g (μ) = x^{⊤} β

$g(\mu) = x^\top \beta$

ϕ

$\phi$

Ахим Цейлейс

@AchimZeileis Я вспомнил, что видел твое имя в резюме. То, что вы говорите, имеет смысл. Может быть, вы хотели бы преобразовать свой комментарий в ответ, добавив еще несколько обоснований? Как я уже сказал, я был бы рад назначить награду за того, кто дал достаточно подробный ответ на вопрос.

Тим

@Tim постараюсь сделать это, когда у меня будет больше времени. Вот почему я думал, что быстрый комментарий лучше, чем ничего ...

Ахим Цейлейс

Ответ @probabilityislogic находится на правильном пути.

Бета-распределение находится в двухпараметрическом экспоненциальном семействе . Простые модели GLM, описанные Nelder и Wedderburn (1972) , не включают в себя все распределения в двухпараметрическом семействе экспонент.

С точки зрения статьи N & W, GLM применяется к функциям плотности следующего типа (это позже было названо семейством экспоненциальной дисперсии в Jørgensen 1987 ):

π (z; θ, ϕ) = \exp [α (ϕ) {z θ - g (θ) + h (z)} + β (ϕ, z)]

$\pi(z;\theta,\phi) = \exp \left[ \alpha(\phi) \lbrace z\theta - g(\theta) +h(z)\rbrace +\beta(\phi,z) \right]$

с дополнительной функцией связи и линейной моделью для естественного параметра . $f()$ $\theta = f(\mu) = f(X\beta)$

Таким образом, мы могли бы также переписать вышеприведенный дистрибутив:

π (z; μ, ϕ) = e x p [z (f (μ) α (ϕ)) + h (z) α (ϕ) - g (f (μ)) α (ϕ) + β (ϕ, z)]

$\pi(z;\mu,\phi) = exp \left[z(f(\mu)\alpha(\phi)) +h(z)\alpha(\phi) - g(f(\mu))\alpha(\phi) +\beta(\phi,z) \right]$

Семейство экспонент с двумя параметрами:

f (z; θ_{1}, θ_{2}) = e x p [T_{1} (z) η_{1} (θ_{1}, θ_{2}) + T_{2} (z) η_{2} (θ_{1}, θ_{2}) - g (θ_{1}, θ_{2}) + h (z)]

$f(z;\theta_1,\theta_2) = exp \left[T_1(z)\eta_1(\theta_1,\theta_2) + T_2(z)\eta_2(\theta_1,\theta_2) - g(\theta_1,\theta_2) +h(z) \right]$

который выглядит похожим, но более общим (также, если один из является постоянным). $\theta$

Разница очевидна, и также невозможно представить бета-дистрибутив в форме GLM.

Тем не менее, мне не хватает понимания, чтобы создать более интуитивный и хорошо информированный ответ (у меня есть ощущение, что могут быть более глубокие и элегантные отношения с различными фундаментальными принципами). GLM обобщает распределение ошибки, используя модель экспоненциальной дисперсии с одной вариацией вместо модели наименьших квадратов, и обобщает линейную зависимость в среднем, используя функцию связи.

Лучшей и самой простой интуицией, по-видимому, является дисперсионный -термин в экспоненте, который умножается на все и, следовательно, дисперсия не меняется с . Принимая во внимание, что несколько двухпараметрических экспоненциальных семейств и методы квази-правдоподобия позволяют параметру дисперсии также быть функцией . $\alpha(\phi)$ $\theta$ $\theta$

Секст Эмпирик
источник

Второй параметр в N & W, определенный df, является дисперсией. Это расширяет однопараметрическое натуральное экспоненциальное семейство

ϕ

$\phi$

π (z; θ)

$\pi(z;\theta)$

Sextus

@amoeba beta - это двумерное экспоненциальное семейное распределение, например, www2.stat.duke.edu/courses/Spring11/sta114/lec/expofam.pdf

Тим

Я не уверен, если это не совсем возможно, даже с фиксированной дисперсией. По крайней мере, не в соответствии с GLM, как заявлено N & W (я знаю, что многие люди делают гораздо более сложные вещи, чтобы решить бета-регрессию). Я отредактирую ответ, чтобы показать, что происходит и где оно идет не так, если мы попытаемся следовать по тому же пути итеративных переоцененных наименьших квадратов.

Секст Эмпирик

Я несколько отредактировал ответ. 1) Мое первоначальное описание семейств и моделей рассеяния было неверным. GLM включает в себя все распределения экспоненциальных семейств с одним параметром, потому что это не только функция плотности, но и функция связи. 2) С точки зрения лучшего интуитивного представления я не мог уйти далеко и не ожидаю, что скоро уйду далеко. Модели GLM относятся к классической модели в различных представлениях, добавляя веса к матричной формулировке процедур подбора, производных логарифмических функций правдоподобия, включая члены с функцией связи и дисперсией, .....

Sextus

Я позволил себе немного отредактировать ваш ответ, надеюсь, у вас все в порядке с изменениями. Кроме того, похоже, что этот ответ stats.stackexchange.com/a/18812/28666 подсказывает, почему N & W использовала именно это семейство дистрибутивов, а не более широкое.

говорит амеба: восстанови Монику

Я не думаю, что бета-распределение является частью семейства экспоненциальной дисперсии . Чтобы получить это, вам нужно иметь плотность

f (y; θ, τ) = \exp (\frac{y θ - c (θ)}{τ} + d (y, τ))

$f (y;\theta,\tau)=\exp\left (\frac {y\theta - c (\theta)}{\tau} + d (y,\tau)\right)$

для указанных функций и . Среднее значение дается как а дисперсия дается как . Параметр называется каноническим параметром. $c ()$ $d ()$ $c'(\theta)$ $\tau c''(\theta)$ $\theta$

Бета-дистрибутив не может быть написан таким образом - один из способов увидеть это, заметив, что в журнале нет вероятности термина - вместо него есть и $y$ $\log [y]$ $\log [1-y]$

f_{b e t a} (y; μ, ϕ) = \exp (ϕ μ \log [\frac{y}{1 - y}] + ϕ \log [1 - y] - \log [B (ϕ μ, ϕ (1 - μ)] - \log [\frac{y}{1 - y}])

$f_{beta}(y;\mu,\phi)=\exp\left (\phi\mu\log\left[\frac {y}{1-y}\right] +\phi\log [1-y] - \log [B (\phi\mu,\phi (1-\mu)]-\log\left[\frac {y}{1-y}\right]\right)$

Еще один способ увидеть, что бета не является экспоненциальным семейством дисперсий, состоит в том, что его можно записать в виде где и независимы и оба следуют гамма-распределению с одинаковым параметром масштаба (и гаммой это экспоненциальная семья). $y=\frac {x}{x+z}$ $x$ $z$

probabilityislogic
источник

Этот ответ не является правильным, как написано. Один из способов убедиться в этом состоит в том, что, согласно представленной логике, распределения Бернулли и биномиальные, например, также не будут относиться к классу экспоненциальных семейств.

кардинал

Извините, вы правы, что приведенный мной пример был ошибочным. (Предупреждение: интеллектуальная арифметика и мобильное использование CrossValidated может быть опасным!) Однако моя точка зрения остается в силе . Этот ответ неверен, потому что он выбирает очень узко «определенную» концепцию «экспоненциального семейства» - гораздо уже, чем любой традиционный источник или практическое использование.

кардинал

Хм. Википедия перечисляет бета-версию в списке экспоненциальных семейств.

говорит амеба: восстанови

Правда - я думал о естественной экспоненциальной семье - что является особым случаем

вероятностная

Параметр в функции также описывается функцией связи, и затем эта узко определенная функция распределения становится более широкой, включая все распределения экспоненциального семейства с одним параметром, но только некоторые из экспоненциального семейства с двумя параметрами.

θ

$\theta$

Секст Эмпирик