Как смоделировать это распределение нечетной формы (почти наоборот-J)

25

Моя зависимая переменная, показанная ниже, не подходит ни под какой дистрибутив, который я знаю. Линейная регрессия приводит к несколько ненормальным отклонениям в правильном направлении, которые странным образом относятся к предсказанному Y (2-й график). Какие-либо предложения для преобразований или других способов получить наиболее достоверные результаты и лучшую точность прогнозирования? Если возможно, я бы хотел избежать неуклюжей классификации, скажем, на 5 значений (например, 0, lo%, med%, hi%, 1).

введите описание изображения здесь

введите описание изображения здесь

rolando2
источник
7
Вам лучше рассказать нам об этих данных и о том, откуда они взялись: что-то ограничило распределение, которое естественным образом выходит за пределы интервала . Возможно, вы использовали какой-то метод измерения или статистическую процедуру, которая не совсем подходит для ваших данных. Попытка исправить такую ​​ошибку с помощью сложных методов подгонки распределения, нелинейных повторных выражений, биннинга и т. Д. Просто усугубит ошибку, поэтому было бы неплохо обойти эту проблему вообще. [0,1]
whuber
2
@whuber - Хорошая мысль, но переменная была создана с помощью сложной бюрократической системы, которая, к сожалению, установлена ​​в камне. Я не вправе раскрывать природу переменных, которые здесь задействованы.
rolando2
1
Ладно, это стоило того. Я думаю, что вместо преобразования данных, вы все равно можете распознать механизм зажима в форме процедуры ML, чтобы выполнить регрессию: это было бы похоже на просмотр этих данных как данных, подвергнутых цензуре как слева, так и справа ,
whuber
Попробуйте бета-дистрибутив с параметрами, меньшими единицы, en.wikipedia.org/wiki/File:Beta_distribution_pdf.svg
Алекос Пападопулос
2
Этот тип ванны или U-образного распространения распространен в читателях журналов, где многие люди читают один выпуск публикации, например, в кабинете врача, или подписчики, которые видят каждую проблему с небольшим количеством читателей между ними. Несколько комментариев и ответов указывают на то, что бета-версия является одним из возможных решений. Литература, с которой я знаком, указывает на то, что бета-биномиальный вариант лучше подходит.
Майк Хантер

Ответы:

47

Методы цензурной регрессии могут обрабатывать такие данные. Они предполагают, что остатки ведут себя как в обычной линейной регрессии, но были изменены так, чтобы

  1. (Левая цензура): все значения, меньшие нижнего порога, который не зависит от данных (но может варьироваться от одного случая к другому), не были определены количественно; и / или

  2. (Правильная цензура): все значения, превышающие высокий порог, который не зависит от данных (но может варьироваться от одного случая к другому), не были определены количественно.

«Не определено» означает, что мы знаем, опускается ли значение ниже (или выше) своего порога, но это все.

Методы подбора обычно используют максимальную вероятность. Когда модель для ответа соответствующего вектору имеет видXYИкс

Y~Иксβ+ε

с iid имеющим общее распределение с PDF (где - неизвестные «параметры помех»), то - при отсутствии цензуры - логарифмическая вероятность наблюдений равнаF σ f σ σ ( x i , y i )εFσеσσ(Икся,Yя)

Λзнак равноΣязнак равно1Nжурналеσ(Yя-Иксяβ),

При наличии цензуры мы можем разделить случаи на три (возможно, пустых) класса: для индексов от до , содержат нижние пороговые значения и представляют данные с левой цензурой ; для индексов к , то количественно; а для остальных индексов содержат верхние пороговые значения и представляют данные с цензурой справа . Логарифмическая правдоподобие получается так же, как и прежде: это логарифм произведения вероятностей.n 1 y i i = n 1 + 1 n 2 y i y iязнак равно1N1Yяязнак равноN1+1N2YяYя

Λзнак равноΣязнак равно1N1журналFσ(Yя-Иксяβ)+Σязнак равноN1+1N2журналеσ(Yя-Иксяβ)+Σязнак равноN2+1Nжурнал(1-Fσ(Yя-Иксяβ)),

(β,σ)

По моему опыту, такие методы могут хорошо работать, когда менее половины данных подвергаются цензуре; в противном случае результаты могут быть нестабильными.


Вот простой Rпример использования censRegпакета для иллюстрации того, как OLS и цензурированные результаты могут различаться (сильно) даже при большом количестве данных. Качественно воспроизводит данные в вопросе.

library("censReg")
set.seed(17)
n.data <- 2960
coeff  <- c(-0.001, 0.005)
sigma  <- 0.005
x      <- rnorm(n.data, 0.5)
y      <- as.vector(coeff %*% rbind(rep(1, n.data), x) + rnorm(n.data, 0, sigma))
y.cen           <- y
y.cen[y < 0]    <- 0
y.cen[y > 0.01] <- 0.01
data = data.frame(list(x, y.cen))

0,005-0,0010,005

Давайте использовать оба lmи censRegчтобы соответствовать линии:

fit <- censReg(y.cen ~ x, data=data, left=0.0, right=0.01)
summary(fit)

Результаты этого цензурированной регрессии, приведенные print(fit), являются

(Intercept)           x       sigma 
  -0.001028    0.004935    0.004856 

Они очень близки к правильным значениям , и соответственно.-0,0010,0050,005

fit.OLS <- lm(y.cen ~ x, data=data)
summary(fit.OLS)

МНК нужным, данное print(fit.OLS), является

(Intercept)            x  
   0.001996     0.002345  

Даже близко не близко! стандартная ошибка, о которой сообщают, summaryсоставляет , меньше чем половина истинного значения. Эти смещения типичны для регрессий с большим количеством цензурированных данных.0.002864

Для сравнения давайте ограничим регрессию количественными данными:

fit.part <- lm(y[0 <= y & y <= 0.01] ~ x[0 <= y & y <= 0.01])
summary(fit.part)

(Intercept)  x[0 <= y & y <= 0.01]  
   0.003240               0.001461  

Еще хуже!

Несколько картинок суммируют ситуацию.

lineplot <- function() {
  abline(coef(fit)[1:2], col="Red", lwd=2)
  abline(coef(fit.OLS), col="Blue", lty=2, lwd=2)
  abline(coef(fit.part), col=rgb(.2, .6, .2), lty=3, lwd=2)
}
par(mfrow=c(1,4))
plot(x,y, pch=19, cex=0.5, col="Gray", main="Hypothetical Data")
lineplot()
plot(x,y.cen, pch=19, cex=0.5, col="Gray", main="Censored Data")
lineplot()
hist(y.cen, breaks=50, main="Censored Data")
hist(y[0 <= y & y <= 0.01], breaks=50, main="Quantified Data")

Сюжеты

Разница между графиками «гипотетических данных» и «цензурированных данных» заключается в том, что все значения y ниже или выше в первом были перемещены в соответствующие пороговые значения для получения последнего графика. В результате вы можете увидеть цензурированные данные, выстроенные вдоль дна и верха.00,01

Сплошные красные линии соответствуют цензуре, пунктирные синие линии соответствуют OLS, обе они основаны только на данных, подвергнутых цензуре . Пунктирные зеленые линии соответствуют только количественным данным. Понятно, что лучше: синие и зеленые линии заметно плохие, и только красная (для цензурной регрессии) выглядит правильно. Гистограммы справа подтверждают, что значения этого синтетического набора данных действительно качественно аналогичны данным в вопросе (среднее = , SD = ). Крайняя правая гистограмма подробно показывает центральную (количественную) часть гистограммы.0,0032 0,0037Y0,00320,0037

Whuber
источник
отличный ответ (+1). Если бы мы визуально удалили два шпиона цензуры, мне кажется, что зависимая переменная имеет что-то близкое к экспоненциальному распределению, как если бы базовые данные были длиной какого-то процесса. Это что-то принять во внимание?
user603
@ user603 Я смоделировал количественные значения с частью верхнего плеча гауссианы, на самом деле :-). Здесь мы должны позаботиться, потому что соответствующая вероятностная модель относится к остаткам, а не к самой переменной отклика. Хотя это немного сложно, можно сделать цензурированные остаточные графики и даже цензурированные графики вероятности, чтобы оценить правильность соответствия некоторому гипотетическому распределению.
whuber
моя точка зрения заключается в том, что с дважды цензурированным гауссианом гистограмма значений, не подвергнутых цензуре, должна быть несколько плоской, но они, похоже, мягко уменьшаются, когда мы
удаляемся
1
@ user603 Ах, нет, это не так: взгляните на гистограмму количественных значений самостоятельно. Они будут иметь наклон почти линейно вниз, точно так же, как в вопросе.
whuber
2
Я попробовал регрессию с цензурой в моем наборе данных, и результаты перекрестной проверки оказались лучше, чем у OLS. Хорошее дополнение к моему набору инструментов - спасибо.
rolando2
9

Значения всегда между 0 и 1?

Если это так, вы можете рассмотреть бета-распределение и бета-регрессию.

Но обязательно продумайте процесс, который приводит к вашим данным. Вы также можете сделать 0 и 1 раздутую модель (0 завышенных моделей распространены, вам, вероятно, придется расширить до 1, завышенных самим собой). Большая разница в том, что эти пики представляют большое количество точных 0 и 1 или просто значения, близкие к 0 и 1.

Может быть лучше проконсультироваться с местным статистиком (с соглашением о неразглашении, чтобы вы могли обсудить детали, откуда поступают данные), чтобы выработать наилучший подход.

Грег Сноу
источник
2
01
Да, всегда в диапазоне от 0% до 1% ... И эти пики действительно равны 0% и 1%. Применимы ли модели с нулевым или нулевым и одним завышенным значением для данных, не относящихся к подсчету, подобных этим?
rolando2
1
Норма завышена, но это не применимо.
Питер Флом - Восстановить Монику
С точными нулями и единицами, но непрерывными между ними, похоже, что может существовать лежащее в основе непрерывное распределение с полями за пределами этой области, округленными до 0 или 1. Это был бы случай с двойной цензурой, и модели могли бы быть подобраны с использованием этой идеи.
Грег Сноу,
4

В соответствии с рекомендациями Грега Сноу, я слышал, что бета-модели полезны и в таких ситуациях (см. Smithson & verkuilen, 2006, A Better Lemon Squeezer ), а также при квантильной регрессии ( Bottai et al., 2010 ), но они кажутся настолько выраженными эффектами пола и потолка, что они могут быть неуместными (особенно бета-регрессия).

Другой альтернативой может быть рассмотрение типов цензурированных регрессионных моделей, в частности модели Тобита , где мы считаем, что наблюдаемые результаты генерируются некоторой скрытой скрытой переменной, которая является непрерывной (и предположительно нормальной). Я не собираюсь говорить, что эта базовая непрерывная модель является разумной, учитывая вашу гистограмму, но вы можете найти некоторую поддержку для нее, поскольку вы видите, что распределение (без учета минимального значения) имеет более высокую плотность при более низких значениях инструмента и медленно сокращается до более высоких значения.

Удачи, тем не менее, что цензура настолько драматична, что трудно представить, как можно восстановить много полезной информации в самых экстремальных ситуациях. Мне кажется, что почти половина вашего образца попадает в пол и потолочные контейнеры.

Энди У
источник