Обратное преобразование результатов регрессии при моделировании журнала (y)

11

Я подгоняю регрессию к . Является ли обоснованным обратное преобразование точечных оценок (и доверительных интервалов / интервалов прогнозирования) путем возведения в степень? Я не верю в это, поскольку но хотел мнения других.log(y)E[f(X)]f(E[X])

Мой пример ниже показывает конфликты с обратным преобразованием (.239 против .219).

set.seed(123)

a=-5
b=2

x=runif(100,0,1)
y=exp(a*x+b+rnorm(100,0,.2))
# plot(x,y)

### NLS Fit
f <- function(x,a,b) {exp(a*x+b)} 
fit <- nls(y ~ exp(a*x+b),  start = c(a=-10, b=15)) 
co=coef(fit)
# curve(f(x=x, a=co[1], b=co[2]), add = TRUE,col=2,lwd=1.2) 
predict(fit,newdata=data.frame(x=.7))
[1] 0.2393773

### LM Fit
# plot(x,log(y))
# abline(lm(log(y)~x),col=2)
fit=lm(log(y)~x)
temp=predict(fit,newdata=data.frame(x=.7),interval='prediction')
exp(temp)
        fit       lwr       upr
1 0.2199471 0.1492762 0.3240752
лощина
источник
1
Разве это не одна из проблем, которая решается с помощью гауссовых ГЛМ с логарифмической связью?
generic_user
@ARM Да, я верю в это. Спасибо что подметил это. Однако, используя GLM, сложнее получить интервалы прогнозирования, но я думаю, что смогу решить это.
Глен
1
@Glen Сделайте поиск Дуана, размазывающего на этом сайте.
Дмитрий Васильевич Мастеров

Ответы:

13

Это зависит от того, что вы хотите получить на другом конце.

Доверительный интервал для преобразованного параметра преобразуется просто отлично. Если оно имеет номинальное покрытие в логарифмическом масштабе, оно будет иметь такое же покрытие в исходном масштабе из-за монотонности преобразования.

Интервал предсказания для будущего наблюдения также преобразуется очень хорошо.

Интервал для среднего значения в логарифмической шкале обычно не будет подходящим интервалом для среднего значения в исходной шкале.

Однако иногда вы можете точно или приблизительно получить разумную оценку среднего значения в исходном масштабе из модели в логарифмическом масштабе.

Однако требуется осторожность, иначе вы можете получить оценки, которые имеют несколько неожиданные свойства (например, можно получить оценки, которые сами по себе не имеют среднего значения; это далеко не все для хорошей идеи).

Так, например, в логнормальном случае, когда вы возводите в степень обратно, у вас есть хорошая оценка , и вы можете заметить, что среднее значение популяции равно , так что вы можете подумать об улучшении , масштабируя его по некоторой оценке .exp(μi)exp(μi+12σ2)exp(μi^)exp(12σ2)

По крайней мере, нужно иметь возможность получить непротиворечивую оценку и даже некоторую асимптотику распределения с помощью теоремы Слуцкого (в частности, формы продукта), если можно последовательно оценить корректировку. Теорема о непрерывном отображении говорит, что вы можете, если вы можете оценить последовательно ... что имеет место.σ2

Так что, если является непротиворечивой оценкой , то сходится по распределению к распределению (который после проверки будет асимптотически логнормально распределен ). Поскольку будет согласованным для , но теорема о непрерывном отображении, будет согласованной для , и поэтому мы имеем согласованную оценку имею ввиду в оригинальном масштабе.σ^2σ2exp(μi^)exp(12σ^2)exp(μi^)exp(12σ2)μi^μiexp(μi^)exp(μi)

Смотрите здесь .

Некоторые похожие посты:

Обратное преобразование модели MLR

Обратное Преобразование

Обратно преобразованные доверительные интервалы

Glen_b - Восстановить Монику
источник
1
Спасибо, я посмотрел предыдущие посты и, хотя поучительно, все еще был немного смущен, отсюда и мой вопрос.
Глен
+1 Отличный ответ! Просто быстрое пояснение: откуда взялся качестве инструмента для масштабирования ? Я видел это в определении логнормального в Википедии, но там тоже ничего не объясняется, это просто интегрирует среднее из PDF? ^ σ 212σ2^
usεr11852
1
Вы можете получить его, просто интегрировав: где - плотность логнормального значения, но, вероятно, это проще сделать, рассчитав для нормального (где ), но тогда, возможно, лучше найти MGF для - что не более сложно - и из каких моментов для очень легко получить (заменяя на в свою очередь), по сути, получая более высокие моменты бесплатно. е Е ( е Х ) Х = войти Y X Y T 1 , 2 , . , ,E(Y)=0yf(y)dyfE(eX)X=logYXYt1,2,...
Glen_b
1
@ usεr11852 В любом из последних случаев вы берете или в член в плотности, затем завершаете квадрат в и приводите дополнительные константы (т.е. все, кроме нормализующая константа для нормали) перед интегралом (в котором есть ), оставляя гауссовский pdf интегрированным на вещественной линии (со смещенным средним от оригинала), который интегрируется в 1, оставляя только константы, которые вы принесли впереди Это включает в себя не что иное, как очень простые алгебраические манипуляции, ... ctdе т х э . , , х 1exetxe...x12
Glen_b
1
ctd ... и из которого необработанный момент логнормального элемента равен . e μ t + 1teμt+12σ2t2
Glen_b