У меня есть вопрос о правильном распределении, используемом для создания модели с моими данными. Я провел инвентаризацию леса на 50 участков, каждый из которых имеет размеры 20 х 50 м. Для каждого участка я подсчитал процент деревьев, которые затеняют землю. Каждый участок имеет одно значение в процентах для покрытия навеса. Проценты варьируются от 0 до 0,95. Я делаю модель процентного покрытия кроны деревьев ( переменная Y ) с матрицей независимых X переменных на основе спутниковых снимков и данных об окружающей среде.
Я не уверен, следует ли мне использовать биномиальное распределение, поскольку биноминальная случайная величина - это сумма n независимых испытаний (т. Е. Случайных величин Бернулли). Процентные значения не являются суммой испытаний; они фактические проценты. Должен ли я использовать гамму, даже если она не имеет верхнего предела? Должен ли я конвертировать проценты в целое число и использовать Пуассона в качестве счета? Должен ли я просто придерживаться Гаусса? Я не нашел много примеров в литературе или в учебниках, которые пытаются смоделировать проценты таким образом. Любые советы или идеи приветствуются.
Спасибо за ответ. На самом деле, бета-версия - это именно то, что мне нужно, и она подробно обсуждается в этой статье:
Eskelson, BN, Madsen, L., Hagar, JC, & Temesgen, H. (2011). Оценка растительного покрова подлеска прибрежной зоны с помощью бета-регрессии и моделей связок. Forest Science, 57 (3), 212-221.
Эти авторы используют пакет betareg в R от Cribari-Neto и Zeileis.
В следующей статье обсуждается хороший способ преобразования бета-распределенной переменной ответа, если она содержит истинные 0 и / или 1 в диапазоне процентов:
- Смитсон, М. и Дж. Веркуилен, 2006. Лучшая лимонная соковыжималка? Регрессия максимального правдоподобия с бета-распределенными зависимыми переменными , Психологические методы, 11 (1): 54–71.
Ответы:
Вы правы в том, что биномиальное распределение предназначено для дискретных пропорций, которые возникают из числа «успехов» конечного числа испытаний Бернулли, и что это делает распределение неуместным для ваших данных. Вы должны использовать гамма-распределение, деленное на сумму этой гаммы плюс еще одна гамма. То есть вы должны использовать бета-дистрибутив для моделирования непрерывных пропорций.
У меня есть пример бета-регрессии в моем ответе здесь: Удалите влияние фактора на данные непрерывной пропорции, используя регрессию в R .
источник
Значения в процентах представляют показатели, не зависящие от количества выборок. Вы хотели бы использовать эти проценты в качестве зависимой переменной и спутниковые изображения в качестве пояснительной переменной. Однако я думаю, что не все из 50 участков в инвентаре имели одинаковое количество образцов. Подходящая модель, которая связывает эти проценты с другими переменными, должна учитывать эту неопределенность в измерении, давая больший вес на графиках с высокими выборками.
Кроме того, распределение ошибок в случае ваших данных явно биномиальное. Дисперсия ошибки наименьшая на границах, она фиксируется биномиальным распределением.
Все это кажется мне архетипическим примером использования GLM с моделью биномиальной ошибки.
«Статистика: Введение с использованием R», глава 14 Кроули, обсуждает именно эту тему и как ее анализировать с помощью R.
источник