Феномен «чрезмерной дисперсии» в GLM возникает всякий раз, когда мы используем модель, которая ограничивает дисперсию переменной отклика, и данные демонстрируют большую дисперсию, чем позволяет ограничение модели. Это обычно происходит при моделировании данных подсчета с использованием Poisson GLM, и это можно диагностировать с помощью хорошо известных тестов. Если тесты показывают, что есть статистически значимые доказательства чрезмерной дисперсии, мы обычно обобщаем модель, используя более широкое семейство распределений, которые освобождают параметр дисперсии от ограничения, возникающего в исходной модели. В случае пуассоновской GLM принято обобщать либо на отрицательно-биномиальную, либо квазипуассоновскую GLM.
Эта ситуация чревата очевидным возражением. Зачем вообще начинать с Poisson GLM? Можно начать непосредственно с более широких форм распределения, которые имеют (относительно) параметр свободной дисперсии и позволяют параметру дисперсии соответствовать данным, полностью игнорируя тесты на избыточную дисперсию. В других ситуациях, когда мы проводим анализ данных, мы почти всегда используем распределительные формы, которые предоставляют свободу, по крайней мере, в первые два момента, так зачем делать здесь исключение?
Мой вопрос: есть ли веская причина начать с распределения, которое фиксирует дисперсию (например, распределение Пуассона), а затем выполнить тест на избыточную дисперсию? Как эта процедура соотносится с полным пропуском этого упражнения и переходом непосредственно к более общим моделям (например, отрицательно-биномиальным, квазипуассоновским и т. Д.)? Другими словами, почему бы не всегда использовать распределение с параметром свободной дисперсии?
источник
Ответы:
В принципе, я согласен с тем, что в 99% случаев лучше использовать более гибкую модель. С учетом сказанного, вот два с половиной аргумента, почему вы не можете.
(1) Менее гибкий означает более эффективные оценки. Учитывая, что параметры дисперсии имеют тенденцию быть менее стабильными, чем средние параметры, ваше предположение о фиксированной зависимости средней дисперсии может стабилизировать стандартные ошибки в большей степени.
(2) Проверка модели. Я работал с физиками, которые считают, что различные измерения могут быть описаны распределениями Пуассона из-за теоретической физики. Если мы отвергаем гипотезу, что означает = дисперсия, у нас есть доказательства против гипотезы распределения Пуассона. Как указано в комментарии @GordonSmyth, если у вас есть основания полагать, что данное измерение должно следовать распределению Пуассона, если у вас есть доказательства чрезмерной дисперсии, у вас есть доказательства того, что вы упускаете важные факторы.
источник
Хотя это мой собственный вопрос, я также собираюсь опубликовать свои собственные два цента в качестве ответа, так что мы добавим к числу точек зрения на этот вопрос. Вопрос здесь заключается в том, имеет ли смысл изначально подгонять распределение данных с одним параметром к данным. Когда вы используете однопараметрическое распределение (такое как GLM Пуассона или биномиальный GLM с фиксированным пробным параметром), дисперсия не является свободным параметром, а вместо этого ограничивается как некоторая функция среднего значения. Это означает, что не рекомендуется совмещать однопараметрическое распределение с данными в любой ситуации, когда вы не совсем уверены, что дисперсия соответствует структуре этого распределения.
Подгонка распределений с одним параметром к данным - почти всегда плохая идея: данные часто бывают более запутанными, чем это показывают предложенные модели, и даже когда есть теоретические основания полагать, что конкретная модель с одним параметром может быть получена, это часто бывает, что данные на самом деле происходят из смеси этого однопараметрического распределения с диапазоном значений параметров. Это часто эквивалентно более широкой модели, такой как двухпараметрическое распределение, которое дает большую свободу для дисперсии. Как обсуждено ниже, это верно для Пуассона GLM в случае данных подсчета.
Как указано в вопросе, в большинстве приложений статистики обычной практикой является использование форм распределения, которые, по крайней мере, позволяют двум первым моментам свободно изменяться. Это гарантирует, что подобранная модель позволяет данным определять предполагаемое среднее значение и дисперсию, а не искусственно ограничивать их моделью. Наличие этого второго параметра приводит к потере только одной степени свободы в модели, что является незначительной потерей по сравнению с преимуществом, позволяющим оценивать дисперсию по данным. Можно, конечно, расширить это рассуждение и добавить третий параметр, чтобы обеспечить подгонку асимметрии, четвертый, чтобы позволить подгонку эксцесса и т. Д.
За некоторыми незначительными исключениями, Poisson GLM - плохая модель: по моему опыту, адаптация распределения Пуассона для подсчета данных - почти всегда плохая идея. Для данных подсчета очень распространено, что дисперсия данных «чрезмерно рассеяна» относительно распределения Пуассона. Даже в ситуациях, когда теория указывает на распределение Пуассона, часто лучшая модель представляет собой смесь распределений Пуассона, где дисперсия становится свободным параметром. Действительно, в случае данных подсчета отрицательно-биномиальное распределение представляет собой пуассоновскую смесь с гамма-распределением для параметра скоростиТаким образом, даже когда есть теоретические основания полагать, что подсчет поступает в соответствии с процессом распределения Пуассона, часто бывает так, что имеет место «чрезмерная дисперсия», и распределение с отрицательным биномиальным распределением подходит гораздо лучше.
Практика подбора Poisson GLM для подсчета данных, а затем проведения статистического теста для проверки на «избыточную дисперсию» является анахронизмом и вряд ли когда-либо будет хорошей практикой. В других формах статистического анализа мы не начинаем с двухпараметрического распределения, произвольно выбираем ограничение по дисперсии, а затем проверяем это ограничение, чтобы попытаться исключить параметр из распределения. Действуя таким образом, мы фактически создаем неуклюжую гибридную процедуру, состоящую из начального теста гипотез, используемого для выбора модели, а затем фактической модели (либо Пуассона, либо более широкого распределения). Во многих контекстах было показано, что такая практика создания гибридных моделей из первоначального теста выбора модели приводит к плохим общим моделям.
Аналогичная ситуация, когда использовался аналогичный гибридный метод, заключается в Т-тестах среднего значения разности. Раньше курсы по статистике рекомендовали сначала использовать тест Левена (или даже просто несколько более грубые «практические правила») для проверки на равенство отклонений между двумя популяциями, а затем, если данные «прошли» этот тест, вы бы используйте T-тест Стьюдента, который предполагает одинаковую дисперсию, и если данные «провалились», то вместо этого вы бы использовали T-тест Уэлча. На самом деле это действительно плохая процедура (см., Например, здесь и здесь). Гораздо лучше просто использовать последний тест, который не делает предположений о дисперсии, а не создавать неуклюжий составной тест, который объединяет предварительный тест гипотезы, а затем использует его для выбора модели.
Для данных подсчета вы, как правило, получите хорошие начальные результаты путем подбора двухпараметрической модели, такой как модель с отрицательным биномиальным или квазипуассоновским. (Обратите внимание, что последнее не является реальным распределением, но оно все же дает разумную двухпараметрическую модель.) Если вообще требуется какое-либо дальнейшее обобщение, обычно это добавление нулевой инфляции, когда имеется чрезмерное количество нулей в данных. Ограничение Пуассона GLM - это искусственный и бессмысленный выбор модели, и это не намного улучшается при тестировании на избыточную дисперсию.
Хорошо, теперь вот незначительные исключения: единственное реальное исключение из вышеперечисленного - две ситуации:
(1) У вас чрезвычайно сильные априорные теоретические причины полагать, что допущения для распределения по одному параметру выполнены, и часть анализа заключается в проверке этой теоретической модели на основе данных; или
(2) По какой-то другой (странной) причине целью вашего анализа является проведение проверки гипотезы на дисперсию данных, и поэтому вы действительно хотите ограничить эту дисперсию этим гипотетическим ограничением, а затем проверить эту гипотезу.
Эти ситуации очень редки. Они имеют тенденцию возникать только при наличии априорных теоретических знаний о механизме генерации данных, и целью анализа является проверка этой основной теории. Это может иметь место в чрезвычайно ограниченном диапазоне приложений, где данные генерируются в строго контролируемых условиях (например, в физике).
источник