Гамма имеет свойство, разделяемое логнормальным; а именно, когда параметр формы поддерживается постоянным, а параметр масштаба изменяется (как это обычно делается при использовании любой из моделей), дисперсия пропорциональна среднеквадратическому (постоянный коэффициент вариации).
Нечто приближенное к этому происходит довольно часто с финансовыми данными или даже со многими другими типами данных.
В результате он часто подходит для данных, которые являются непрерывными, положительными, смещенными вправо и где дисперсия почти постоянна в логарифмическом масштабе, хотя есть ряд других хорошо известных (и часто довольно легко доступных) вариантов с этими свойства.
Кроме того, обычно используется лог-линк с гамма-GLM (реже использовать натуральную ссылку относительно редко). Что немного отличает его от подгонки нормальной линейной модели к логам данных, так это то, что в логарифмическом масштабе гамма остается наклоненной в разной степени, в то время как нормаль (лог логнормального) симметрична. Это делает его (гамма) полезным в различных ситуациях.
Я видел практическое применение гамма-ГЛМ, обсуждаемое (с примерами реальных данных) в (вне пределов моей головы) « Де Йонг и Хеллер и Фриес», а также в многочисленных работах; Я также видел приложения в других областях. О, и если я правильно помню, Venables и MASS Рипли используют его для школьных прогулок (данные квин.; Edit: оказывается, это на самом деле в дополнениях статистики к MASS , см. Стр. 11, 14-я страница pdf, там есть ссылка на журнал, но есть небольшое смещение DV). Э-э, а МакКаллах и Нелдер сделали пример свертывания крови, хотя, возможно, это было естественным связующим звеном.
Тогда есть книга Faraway, где он сделал пример страхования автомобиля и пример данных о производстве полупроводников.
Есть некоторые преимущества и недостатки при выборе любого из двух вариантов. С этих дней оба легко приспосабливаются; Обычно это вопрос выбора наиболее подходящего.
Это далеко не единственный вариант; например, существуют также обратные гауссовы GLM, которые являются более косо / более тяжелыми (и даже более гетероскедастичными), чем гамма или логнормальные.
Что касается недостатков, то делать интервалы прогнозирования сложнее. Некоторые диагностические дисплеи труднее интерпретировать. Вычисление ожиданий по шкале линейного предиктора (обычно логарифмической шкалы) сложнее, чем для эквивалентной логнормальной модели. Тесты гипотез и интервалы, как правило, асимптотические. Это часто относительно незначительные проблемы.
Он имеет некоторые преимущества по сравнению с логнормальной регрессией логарифмических связей (взятие логов и подбор обычной модели линейной регрессии); во-первых, среднее предсказание легко.
Это хороший вопрос. На самом деле, почему люди не используют обобщенные линейные модели (GLM) больше, это тоже хороший вопрос.
Предупреждение: некоторые люди используют GLM для общей линейной модели, а не то, что здесь имеется в виду.
Это зависит от того, куда вы смотрите. Например, гамма-распределения были популярны в некоторых науках об окружающей среде в течение нескольких десятилетий, и поэтому моделирование с помощью переменных-предикторов также является естественным продолжением. Есть много примеров в гидрологии и геоморфологии, чтобы назвать некоторые области, в которых я отклонился.
Трудно точно определить, когда использовать его, кроме пустого ответа, когда он работает лучше всего. Учитывая искаженные положительные данные, я часто сталкиваюсь с тем, чтобы попробовать гамма- и логнормальные модели (в связи с журналом контекста GLM, нормальное или гауссовское семейство) и выбрать, какой из них лучше работает.
До недавнего времени гамма-моделирование оставалось довольно трудным делом, особенно по сравнению с, скажем, взятием журналов и применением линейных регрессий, без написания большого количества кода самостоятельно. Даже сейчас я предполагаю, что это не одинаково легко во всех основных статистических программных средах.
Объясняя, что используется, а что не используется, несмотря на достоинства и недостатки, я думаю, что вы всегда обращаете внимание именно на те факторы, которые вы идентифицируете: что преподается, что в литературе, которую люди читают, о чем люди слышат, говорили о работа и на конференциях. Итак, вам нужна некая любительская социология науки, чтобы объяснить. Большинство людей, кажется, следуют прямым и узким путям в своих областях. В общем, чем больше внутренняя литература в какой-либо области техники моделирования, тем менее склонные люди в этой области, кажется, пытаются что-то другое.
источник
Гамма-регрессия находится в GLM, поэтому вы можете получить много полезных величин для диагностических целей, таких как отклонения от отклонения, рычаги, расстояние Кука и т. Д. Возможно, они не так хороши, как соответствующие величины для преобразованных в лог данных.
Одна вещь, которую избегает гамма-регрессия по сравнению с логнормальным, - это смещение трансформации. Неравенство Дженсена подразумевает, что прогнозы по логнормальной регрессии будут систематически смещаться, потому что он моделирует преобразованные данные, а не преобразованное ожидаемое значение.
Кроме того, гамма-регрессия (или другие модели для неотрицательных данных) может справиться с более широким массивом данных, чем логарифмический, из-за того, что он может иметь режим в 0, такой как у вас с экспоненциальным распределением, которое находится в гамме семья, что невозможно для логнормальных.
Я читал предложения о том, что использование вероятности Пуассона в качестве квази-вероятности более устойчиво. Они сопряжены друг с другом. Квази-Пуассон также имеет существенное преимущество, заключающееся в возможности справиться с точными значениями 0, которые беспокоят как гамму, так и, особенно, логнормальную.
источник
На мой взгляд, предполагается, что ошибки лежат в семействе гамма-распределений, с одинаковыми формами и масштабами, меняющимися в соответствии с соответствующей формулой.
Но сложно сделать модельный диагноз. Обратите внимание, что простой график QQ здесь не подходит, потому что он примерно одинакового распределения, в то время как наш - это семейство распределений с разными дисперсиями.
Наивно, график остатков можно использовать, чтобы увидеть, что они имеют разные масштабы, но одинаковую форму, обычно с длинными хвостами.
По моему опыту, гамма GLM может быть испытан для некоторых проблем с длинным хвостом, и он широко используется в секторах страхования и окружающей среды, и т. Д. Но предположения сложно проверить, и модель обычно не работает нормально, поэтому разные документы утверждают, что используют другие семейные дистрибутивы с той же проблемой, такие как обратный гауссов и т. д. На практике кажется, что такой выбор зависит от экспертного суждения с промышленным опытом. Это ограничивает использование гаммы GLM.
источник