Как смоделировать неотрицательные данные с нулевой раздувкой?

В настоящее время я пытаюсь применить линейную модель ( family = gaussian) к индикатору биоразнообразия, который не может принимать значения ниже нуля, имеет нулевое раздувание и непрерывен. Значения варьируются от 0 до чуть более 0,25. Как следствие, в остатках модели есть довольно очевидная закономерность, от которой мне не удалось избавиться:

У кого-нибудь есть идеи как это решить?

regression zero-inflation tobit-regression tweedie-distribution Дэвид
источник

Добро пожаловать в резюме! Обратите внимание, что ваше имя пользователя, имя пользователя и ссылка на страницу пользователя автоматически добавляются к каждому создаваемому вами сообщению, поэтому подписывать ваши сообщения не нужно. На самом деле, мы предпочитаем, чтобы вы этого не делали.

Серебряная рыба

Если он раздувается до нуля, он не может быть непрерывным, поскольку у непрерывных переменных не может быть скачков в файле cdf (и, очевидно, один из них равен 0). Это может быть непрерывным, кроме 0.

Glen_b

Связанный: stats.stackexchange.com/questions/105320

амеба говорит Восстановить Монику

Ответы:

Существует множество решений для случая раздуваемых (полу) непрерывных распределений:

Регрессия Tobit : предполагает, что данные поступают из одного базового нормального распределения, но отрицательные значения подвергаются цензуре и суммируются на нуле (например, пакет censReg )
препятствие или «двухэтапная» модель: используйте биномиальную модель, чтобы предсказать, являются ли значения 0 или> 0, затем используйте линейную модель (или гамму, или усеченное нормальное, или логическое нормальное), чтобы смоделировать наблюдаемые ненулевые значения
$1<p<2$ $x>0$

Или, если ваша структура данных достаточно проста, вы можете просто использовать линейные модели и использовать тесты перестановки или другой надежный подход, чтобы убедиться, что ваш вывод не будет испорчен интересным распределением данных.

Для большинства этих случаев доступны пакеты R / решения.

Есть другие вопросы по SE о ноль-накачанных (полу) непрерывных данных (например, здесь , здесь и здесь ), но они не дают четкого общего ответа ...

См. Также Min & Agresti, 2002, Моделирование неотрицательных данных со слиянием в ноль: обзор для обзора.

Бен Болкер
источник

@Ben Bolker Не могли бы вы "использовать линейную модель (или гамму, или усеченный нормальный, или логарифмический нормальный) для моделирования" прогнозируемых или фактических ненулевых значений?

rolando2