Сотрудница анализирует некоторые биологические данные для своей диссертации с некоторой неприятной гетероскедастичностью (рисунок ниже). Она анализирует это по смешанной модели, но все еще имеет проблемы с остатками.
Лог-преобразование переменных ответа проясняет ситуацию и на основе обратной связи по этому вопросу, похоже, является подходящим подходом. Первоначально, однако, мы думали, что существуют проблемы в использовании преобразованных переменных со смешанными моделями. Оказывается, мы неправильно истолковали утверждение в SAS для смешанных моделей Littell & Milliken (2006), в котором указывалось, почему неуместно преобразовывать данные подсчета и затем анализировать их с помощью обычной линейной смешанной модели (полная цитата приведена ниже). ,
Подход, который также улучшил остатки, заключался в использовании обобщенной линейной модели с пуассоновским распределением. Я читал, что распределение Пуассона можно использовать для моделирования непрерывных данных (например, как обсуждалось в этом посте ), и пакеты статистики позволяют это, но я не понимаю, что происходит, когда модель подходит.
В целях понимания того, как выполняются основные расчеты, у меня возникают следующие вопросы: когда вы подгоняете распределение Пуассона к непрерывным данным, 1) округляет ли данные до ближайшего целого числа 2) приводит ли это к потере информации и 3) Когда, если вообще, уместно ли использовать модель Пуассона для непрерывных данных?
Littel & Milliken 2006, стр. 529 "преобразование данных [количества] может быть контрпродуктивным. Например, преобразование может исказить распределение эффектов случайной модели или линейность модели. Что еще более важно, преобразование данных по-прежнему оставляет возможность с отрицательным прогнозируемым числом. Следовательно, вывод из смешанной модели с использованием преобразованных данных является весьма подозрительным ".
Ответы:
Я довольно часто оценивал непрерывные положительные регрессии Пуассона с помощью линеаризованной оценки дисперсии Хьюбера / Уайта / Сэндвича. Тем не менее, это не очень хорошая причина, чтобы что-то делать, поэтому вот некоторые реальные ссылки.
Есть также некоторые обнадеживающие доказательства моделирования от Сантоса Сильвы и Тенрейро (2006), где Пуассон входит в число лучших в шоу. Это также хорошо в симуляции с большим количеством нулей в результате . Вы также можете легко сделать свою собственную симуляцию, чтобы убедить себя, что это работает в вашем случае снежинки.
Наконец, вы также можете использовать GLM с функцией связи журнала и семейством Пуассона. Это дает идентичные результаты и успокаивает реакции коленного рефлекса только с данными.
Ссылки без ссылок без ссылок:
Gourieroux, C., A. Monfort и A. Trognon (1984). «Псевдо-методы максимального правдоподобия: приложения к пуассоновским моделям», Econometrica , 52, 701-720.
источник
Распределение Пуассона предназначено только для данных подсчета, пытаться снабжать его непрерывными данными - это неприятно, и я считаю, что этого не следует делать. Одна из причин в том, что вы не знаете, как масштабировать вашу непрерывную переменную. И Пуассон очень сильно зависит от масштаба! Я попытался объяснить это на простом примере здесь . Так что только по этой причине я бы не использовал Пуассона ни для чего, кроме данных подсчета.
Также помните, что GLM выполняет две функции: функцию связи (преобразование переменной ответа, запись в случае Пуассона) и невязки (распределение Пуассона в этом случае). Подумайте о биологической задаче, об остатках, а затем выберите правильный метод. Иногда имеет смысл использовать преобразование журнала, но оставайтесь с нормально распределенными остатками.
Я слышу это впервые! Не имеет никакого смысла для меня вообще. Смешанная модель может быть как обычная линейная модель, только с добавленными случайными эффектами. Можете ли вы привести точную цитату здесь? На мой взгляд, если log transform проясняет ситуацию, просто используйте его!
источник
Вот еще одно замечательное обсуждение того, как использовать модель Пуассона для подбора лог-регрессий: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Я говорю другу, как подсказывает запись в блоге). Основная идея заключается в том, что мы используем только ту часть модели Пуассона, которая является лог-связью. Часть, которая требует, чтобы дисперсия была равна среднему, может быть переопределена с помощью сэндвич-оценки дисперсии. Это все для данных iid, однако; На расширения кластерной / смешанной модели правильно ссылается Дмитрий Мастеров .
источник
Если проблема заключается в масштабировании дисперсии со средним значением, но у вас есть непрерывные данные, задумывались ли вы об использовании непрерывных распределений, которые могут решить проблемы, с которыми вы столкнулись. Возможно Гамма? Дисперсия будет иметь квадратичное отношение со средним - во многом как отрицательный бином.
источник