Как смоделировать неотрицательные данные с нулевой раздувкой?

16

В настоящее время я пытаюсь применить линейную модель ( family = gaussian) к индикатору биоразнообразия, который не может принимать значения ниже нуля, имеет нулевое раздувание и непрерывен. Значения варьируются от 0 до чуть более 0,25. Как следствие, в остатках модели есть довольно очевидная закономерность, от которой мне не удалось избавиться: введите описание изображения здесь

У кого-нибудь есть идеи как это решить?

Дэвид
источник
1
Добро пожаловать в резюме! Обратите внимание, что ваше имя пользователя, имя пользователя и ссылка на страницу пользователя автоматически добавляются к каждому создаваемому вами сообщению, поэтому подписывать ваши сообщения не нужно. На самом деле, мы предпочитаем, чтобы вы этого не делали.
Серебряная рыба
3
Если он раздувается до нуля, он не может быть непрерывным, поскольку у непрерывных переменных не может быть скачков в файле cdf (и, очевидно, один из них равен 0). Это может быть непрерывным, кроме 0.
Glen_b
Связанный: stats.stackexchange.com/questions/105320
амеба говорит Восстановить Монику

Ответы:

32

Существует множество решений для случая раздуваемых (полу) непрерывных распределений:

  • Регрессия Tobit : предполагает, что данные поступают из одного базового нормального распределения, но отрицательные значения подвергаются цензуре и суммируются на нуле (например, пакет censReg )
  • препятствие или «двухэтапная» модель: используйте биномиальную модель, чтобы предсказать, являются ли значения 0 или> 0, затем используйте линейную модель (или гамму, или усеченное нормальное, или логическое нормальное), чтобы смоделировать наблюдаемые ненулевые значения
  • 1<п<2Икс>0

Или, если ваша структура данных достаточно проста, вы можете просто использовать линейные модели и использовать тесты перестановки или другой надежный подход, чтобы убедиться, что ваш вывод не будет испорчен интересным распределением данных.

Для большинства этих случаев доступны пакеты R / решения.

Есть другие вопросы по SE о ноль-накачанных (полу) непрерывных данных (например, здесь , здесь и здесь ), но они не дают четкого общего ответа ...

См. Также Min & Agresti, 2002, Моделирование неотрицательных данных со слиянием в ноль: обзор для обзора.

Бен Болкер
источник
@Ben Bolker Не могли бы вы "использовать линейную модель (или гамму, или усеченный нормальный, или логарифмический нормальный) для моделирования" прогнозируемых или фактических ненулевых значений?
rolando2