Интерпретация логарифмически преобразованного предиктора и / или ответа

46

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные.

Рассмотрим случай

log(DV) = Intercept + B1*IV + Error 

Я могу интерпретировать IV как процентное увеличение, но как это меняется, когда у меня есть

log(DV) = Intercept + B1*log(IV) + Error

или когда у меня

DV = Intercept + B1*log(IV) + Error

?

наверху
источник
1
У меня такое ощущение, что интерпретация «процентного увеличения» не верна, но мне не хватает понимания, чтобы сказать, почему именно. Я надеюсь, что кто-то может помочь .... Кроме того, я бы порекомендовал моделирование с использованием журналов, если они помогают лучше установить отношения XY, но с сообщением об отдельных примерах этих отношений с использованием исходных переменных. Особенно если иметь дело с аудиторией, которая не слишком технически подкована.
rolando2
3
@ rolando2: я не согласен. Если действительная модель требует преобразования, то действительная интерпретация обычно будет опираться на коэффициенты из преобразованной модели. Исследователь по-прежнему обязан надлежащим образом донести значение этих коэффициентов до аудитории. Вот почему, конечно, нам платят такие большие деньги, что зарплата должна быть преобразована в первую очередь.
Jthetzel
1
@BigBucks: Ну, посмотри на это так. Предположим, что ваша аудитория просто не может понять, что вы имеете в виду, когда объясняете, что для каждого изменения 1 в журнале (основание 10) X, Y изменится на b. Но предположим, что они могут понять 3 примера, используя значения X 10, 100 и 1000. В этот момент они, вероятно, поймут нелинейный характер отношений. Вы все еще могли бы сообщить об общем, основанном на журнале b, но приведение этих примеров может иметь все значение.
rolando2
1
.... Хотя теперь, когда я прочитал ваше замечательное объяснение ниже, возможно, использование этих «шаблонов» могло бы помочь многим из нас разобраться в подобных проблемах в понимании.
rolando2
1
Читатели здесь также могут захотеть взглянуть на эти тесно связанные темы: как интерпретировать логарифмически преобразованные коэффициенты в линейной регрессии , и когда и зачем брать логарифм о распределении чисел .
gung - Восстановить Монику

Ответы:

43

Чарли дает хорошее, правильное объяснение. На сайте Статистических вычислений в UCLA есть еще несколько примеров: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm и http://www.ats.ucla.edu/stat/mult_pkg/. FAQ / Общие / log_transformed_regression.htm

Чтобы дополнить ответ Чарли, ниже приведены конкретные интерпретации ваших примеров. Как всегда, интерпретации коэффициентов предполагают, что вы можете защитить свою модель, что регрессионная диагностика удовлетворительная и что данные получены из достоверного исследования.

Пример А : нет преобразований

DV = Intercept + B1 * IV + Error 

«Увеличение IV на единицу связано с B1увеличением ( ) единицы на DV».

Пример Б : Результат преобразован

log(DV) = Intercept + B1 * IV + Error 

«Увеличение показателя на одну единицу связано с ( B1 * 100) процентным увеличением DV».

Пример C : Экспозиция трансформирована

DV = Intercept + B1 * log(IV) + Error 

«Увеличение процента на один процент связано с B1 / 100увеличением ( ) единицы на DV».

Пример D : результат трансформирован и экспозиция трансформирована

log(DV) = Intercept + B1 * log(IV) + Error 

«Один процент увеличения IV связан с ( B1) процентным увеличением DV».

jthetzel
источник
1
Верны ли эти интерпретации независимо от основания логарифма?
Ayalew A.
Пример B. Журнал с преобразованием результата (DV) = Перехват + B1 * IV + Ошибка «Увеличение IV на одну единицу связано с (B1 * 100) процентным увеличением DV. В этом случае, как вам поступить, если вы хотите получить 30 единиц Снижение DV? Спасибо за ваш ответ
Antouria
Таким образом, DV ~ B1 * log (IV) является хорошей моделью для нулевой ограниченной непрерывной зависимой переменной?
Bakaburg
3
Я могу быть смущен. Если вы лог-трансформируете результат, вы должны повторно возвести в степень коэффициент, чтобы найти мультипликативную разницу. Интерпретация в логарифмическом масштабе работает только как приближение, когда отношение очень близко к 1.
AdamO
Ссылки битые.
Ник Кокс
22

В log-log-модели вы увидите, что Напомним, что или Умножение этой последней формулировки на 100 дает процентное изменение . У нас есть аналогичные результаты для .

β1=log(y)log(x).
log(y)y=1y
log(y)=yy.
yx

Используя этот факт, мы можем интерпретировать как процентное изменение для 1-процентного изменения .β1yx

Следуя той же логике, для модели log-level мы имеем

β1=ylog(x)=100y100×log(x).
или - изменение единицы в для изменения на один процент .β1/100yx
Чарли
источник
Я никогда этого не понимал. Это должно быть прямо, но я никогда не видел это ... Что именно такое и как вы перейдете отсюда к процентному изменению?
log(y)=yy?
B_Miner
1
Все, что делает эта строка - это взять производную от по и умножить обе стороны на . У нас есть . Эта доля, то есть изменение деленное на . Умноженное на 100, это процентное изменение . log(y)yyyy1y0yyy
Чарли
7

Основная цель линейной регрессии - оценить среднюю разницу результатов, сравнивая смежные уровни регрессора. Есть много видов средств. Мы наиболее знакомы с средним арифметическим.

AM(X)=(X1+X2++Xn)n

AM - это то, что оценивается с использованием OLS и нетрансформированных переменных. Среднее геометрическое отличается:

GM(X)=(X1×X2××Xn)n=exp(AM(log(X))

введите описание изображения здесь

Практически разница GM - это мультипликативная разница: вы платите X% премии в процентах при получении кредита, уровень гемоглобина снижается на X% после запуска метформина, частота отказов пружин увеличивается на X% как часть ширины. Во всех этих случаях грубая средняя разница имеет меньше смысла.

Логарифмическое преобразование оценивает среднюю геометрическую разницу. При входе в системе преобразования результата и смоделировать его в линейной регрессии , используя следующую формулу спецификацию: log(y) ~ xкоэффициент является средней разностью результатов журнала сравнение соседних единиц . Это практически бесполезно, поэтому мы степень параметр и интерпретируем это значение как среднее геометрическое различие. X e β 1β1Xeβ1

Например, в исследовании вирусной нагрузки ВИЧ после 10-недельного введения АРТ, мы могли бы оценить среднее геометрическое значение препоста . Это означает, что независимо от того, была ли вирусная нагрузка на исходном уровне, она была в среднем на 60% ниже или имела снижение в 0,6 раза при последующем наблюдении. Если бы исходная нагрузка составляла 10 000, моя модель предсказывала, что она будет равна 4000 в последующем, если бы она была 1000 в исходном состоянии, моя модель предсказывала, что она будет 400 в последующем (меньшая разница в исходном масштабе, но пропорционально так же).eβ1=0.40

Это важное отличие от других ответов : условием умножения логарифмического коэффициента на 100 является приближение когда мало. Если коэффициент (по логарифмической шкале), скажем, 0,05, то и интерпретация такова: «увеличение» результата на 5% для «увеличения» на 1 единицу . Однако, если коэффициент равен 0,5 , то , и мы интерпретировать это как «увеличение» 65% в для 1 единицу «увеличение» в . Это НЕ 50% увеличение.X exp ( 0,05 ) 1,05 X exp ( 0,5 ) = 1,65 Y Xlog(x)1xXexp(0.05)1.05Xexp(0.5)=1.65YX

Предположим , что мы регистрируем преобразование предсказатель: y ~ log(x, base=2). Здесь меня интересует мультипликативное изменение а не грубая разница. Я сейчас интересует сравнение участников , отличающихся по 2 раза в . Предположим, например, что я заинтересован в измерении инфекции (да / нет) после воздействия переносимого кровью патогена в различных концентрациях с использованием аддитивной модели риска. Биологическая модель может предполагать, что риск увеличивается пропорционально каждому удвоению концентрации. Затем я не свой результат, но предполагаемый коэффициент интерпретируется как разность рисков, сравнивая группы, подвергшиеся воздействию двукратных различий в концентрации инфекционного материала.X β 1xXβ1

Наконец, log(y) ~ log(x)просто применяются оба определения для получения мультипликативной разности, сравнивая группы, мультипликативно отличающиеся по уровням воздействия.

Adamo
источник