У меня есть некоторые данные в [0,1], которые я хотел бы проанализировать с помощью бета-регрессии. Конечно, что-то нужно сделать, чтобы приспособить значения 0,1. Мне не нравится изменять данные, чтобы соответствовать модели. Кроме того, я не верю, что нулевая и 1 инфляция - это хорошая идея, потому что я считаю, что в этом случае следует рассматривать 0 как очень маленькие положительные значения (но я не хочу точно сказать, какое значение является подходящим. Разумный выбор Я полагаю, что стоит выбрать небольшие значения, такие как .001 и .999, и подогнать модель, используя совокупный dist для бета-версии. Поэтому для наблюдений y_i логарифмическая вероятность LL_i будет
if y_i < .001 LL+=log(cumd_beta(.001))
else if y_i>.999 LL+=log(1.0-cum_beta(.999))
else LL+=log(beta_density(y_i))
Что мне нравится в этой модели, так это то, что если модель бета-регрессии действительна, эта модель также действительна, но она устраняет некоторую чувствительность к экстремальным значениям. Однако это кажется таким естественным подходом, что мне интересно, почему я не нахожу никаких очевидных ссылок в литературе. Поэтому мой вопрос заключается в том, чтобы вместо изменения данных, почему бы не изменить модель. Изменение данных смещает результаты (исходя из предположения, что исходная модель действительна), тогда как изменение модели путем объединения экстремальных значений не смещает результаты.
Может быть, есть проблема, которую я пропускаю?
Ответы:
Согласно этой статье , соответствующее преобразование
Это позволит сжать данные, которые лежат в в ( 0 , 1 ) . Приведенная выше цитата и математическая причина преобразования доступны в дополнительных примечаниях к статье .[0,1] (0,1)
источник
Дэйв,
Общий подход к этой проблеме состоит в том, чтобы подобрать 2 модели логистической регрессии, чтобы предсказать, является ли случай 0 или 1. Затем для тех, кто находится в диапазоне (0,1), используется бета-регрессия.
источник
Я полагаю, что оба легко оцениваются байесовским способом, так как они являются экспоненциальными семействами. Это модификация модели, как вы и надеялись.
источник
Я думаю, что настоящий «правильный» ответ на этот вопрос - бета-регрессия с нулевой раздувкой. Это разработано для обработки данных, которые непрерывно изменяются в интервале [0,1], и позволяет множеству реальных 0 и 1 быть в данных. Этот подход подходит для трех отдельных моделей в байесовском контексте, аналогично тому, что предлагал @B_Miner.
Модель 1. Является ли значение дискретным 0/1 или значением в (0,1)? Подходит с распределением Бернулли.
Модель 2: Подгонка дискретного подмножества с распределением Бернулли.
Модель 3: Подгонка (0,1) подмножества с бета-регрессией.
Для прогнозирования результаты первой модели могут использоваться для взвешивания прогнозов моделей 2 и 3. Это может быть реализовано в
zoib
пакете R или в домашних условиях в BUGS / JAGS / STAN / и т.д.источник