Моя зависимая переменная, показанная ниже, не подходит ни под какой дистрибутив, который я знаю. Линейная регрессия приводит к несколько ненормальным отклонениям в правильном направлении, которые странным образом относятся к предсказанному Y (2-й график). Какие-либо предложения для преобразований или других способов получить наиболее достоверные результаты и лучшую точность прогнозирования? Если возможно, я бы хотел избежать неуклюжей классификации, скажем, на 5 значений (например, 0, lo%, med%, hi%, 1).
25
Ответы:
Методы цензурной регрессии могут обрабатывать такие данные. Они предполагают, что остатки ведут себя как в обычной линейной регрессии, но были изменены так, чтобы
(Левая цензура): все значения, меньшие нижнего порога, который не зависит от данных (но может варьироваться от одного случая к другому), не были определены количественно; и / или
(Правильная цензура): все значения, превышающие высокий порог, который не зависит от данных (но может варьироваться от одного случая к другому), не были определены количественно.
«Не определено» означает, что мы знаем, опускается ли значение ниже (или выше) своего порога, но это все.
Методы подбора обычно используют максимальную вероятность. Когда модель для ответа соответствующего вектору имеет видXY Икс
с iid имеющим общее распределение с PDF (где - неизвестные «параметры помех»), то - при отсутствии цензуры - логарифмическая вероятность наблюдений равнаF σ f σ σ ( x i , y i )ε Fσ еσ σ ( хя, уя)
При наличии цензуры мы можем разделить случаи на три (возможно, пустых) класса: для индексов от до , содержат нижние пороговые значения и представляют данные с левой цензурой ; для индексов к , то количественно; а для остальных индексов содержат верхние пороговые значения и представляют данные с цензурой справа . Логарифмическая правдоподобие получается так же, как и прежде: это логарифм произведения вероятностей.n 1 y i i = n 1 + 1 n 2 y i y iя = 1 N1 Yя я = н1+ 1 N2 Yя Yя
По моему опыту, такие методы могут хорошо работать, когда менее половины данных подвергаются цензуре; в противном случае результаты могут быть нестабильными.
Вот простой
R
пример использованияcensReg
пакета для иллюстрации того, как OLS и цензурированные результаты могут различаться (сильно) даже при большом количестве данных. Качественно воспроизводит данные в вопросе.Давайте использовать оба
lm
иcensReg
чтобы соответствовать линии:Результаты этого цензурированной регрессии, приведенные
print(fit)
, являютсяОни очень близки к правильным значениям , и соответственно.- 0,001 0,005 0,005
МНК нужным, данное
print(fit.OLS)
, являетсяДаже близко не близко! стандартная ошибка, о которой сообщают,0.002864
summary
составляет , меньше чем половина истинного значения. Эти смещения типичны для регрессий с большим количеством цензурированных данных.Для сравнения давайте ограничим регрессию количественными данными:
Еще хуже!
Несколько картинок суммируют ситуацию.
Разница между графиками «гипотетических данных» и «цензурированных данных» заключается в том, что все значения y ниже или выше в первом были перемещены в соответствующие пороговые значения для получения последнего графика. В результате вы можете увидеть цензурированные данные, выстроенные вдоль дна и верха.0 0,01
Сплошные красные линии соответствуют цензуре, пунктирные синие линии соответствуют OLS, обе они основаны только на данных, подвергнутых цензуре . Пунктирные зеленые линии соответствуют только количественным данным. Понятно, что лучше: синие и зеленые линии заметно плохие, и только красная (для цензурной регрессии) выглядит правильно. Гистограммы справа подтверждают, что значения этого синтетического набора данных действительно качественно аналогичны данным в вопросе (среднее = , SD = ). Крайняя правая гистограмма подробно показывает центральную (количественную) часть гистограммы.0,0032 0,0037Y 0,0032 0,0037
источник
Значения всегда между 0 и 1?
Если это так, вы можете рассмотреть бета-распределение и бета-регрессию.
Но обязательно продумайте процесс, который приводит к вашим данным. Вы также можете сделать 0 и 1 раздутую модель (0 завышенных моделей распространены, вам, вероятно, придется расширить до 1, завышенных самим собой). Большая разница в том, что эти пики представляют большое количество точных 0 и 1 или просто значения, близкие к 0 и 1.
Может быть лучше проконсультироваться с местным статистиком (с соглашением о неразглашении, чтобы вы могли обсудить детали, откуда поступают данные), чтобы выработать наилучший подход.
источник
В соответствии с рекомендациями Грега Сноу, я слышал, что бета-модели полезны и в таких ситуациях (см. Smithson & verkuilen, 2006, A Better Lemon Squeezer ), а также при квантильной регрессии ( Bottai et al., 2010 ), но они кажутся настолько выраженными эффектами пола и потолка, что они могут быть неуместными (особенно бета-регрессия).
Другой альтернативой может быть рассмотрение типов цензурированных регрессионных моделей, в частности модели Тобита , где мы считаем, что наблюдаемые результаты генерируются некоторой скрытой скрытой переменной, которая является непрерывной (и предположительно нормальной). Я не собираюсь говорить, что эта базовая непрерывная модель является разумной, учитывая вашу гистограмму, но вы можете найти некоторую поддержку для нее, поскольку вы видите, что распределение (без учета минимального значения) имеет более высокую плотность при более низких значениях инструмента и медленно сокращается до более высоких значения.
Удачи, тем не менее, что цензура настолько драматична, что трудно представить, как можно восстановить много полезной информации в самых экстремальных ситуациях. Мне кажется, что почти половина вашего образца попадает в пол и потолочные контейнеры.
источник