Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные.
Рассмотрим случай
log(DV) = Intercept + B1*IV + Error
Я могу интерпретировать IV как процентное увеличение, но как это меняется, когда у меня есть
log(DV) = Intercept + B1*log(IV) + Error
или когда у меня
DV = Intercept + B1*log(IV) + Error
?
regression
data-transformation
interpretation
regression-coefficients
logarithm
r
dataset
stata
hypothesis-testing
contingency-tables
hypothesis-testing
statistical-significance
standard-deviation
unbiased-estimator
t-distribution
r
functional-data-analysis
maximum-likelihood
bootstrap
regression
change-point
regression
sas
hypothesis-testing
bayesian
randomness
predictive-models
nonparametric
terminology
parametric
correlation
effect-size
loess
mean
pdf
quantile-function
bioinformatics
regression
terminology
r-squared
pdf
maximum
multivariate-analysis
references
data-visualization
r
pca
r
mixed-model
lme4-nlme
distributions
probability
bayesian
prior
anova
chi-squared
binomial
generalized-linear-model
anova
repeated-measures
t-test
post-hoc
clustering
variance
probability
hypothesis-testing
references
binomial
profile-likelihood
self-study
excel
data-transformation
skewness
distributions
statistical-significance
econometrics
spatial
r
regression
anova
spss
linear-model
наверху
источник
источник
Ответы:
Чарли дает хорошее, правильное объяснение. На сайте Статистических вычислений в UCLA есть еще несколько примеров: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm и http://www.ats.ucla.edu/stat/mult_pkg/. FAQ / Общие / log_transformed_regression.htm
Чтобы дополнить ответ Чарли, ниже приведены конкретные интерпретации ваших примеров. Как всегда, интерпретации коэффициентов предполагают, что вы можете защитить свою модель, что регрессионная диагностика удовлетворительная и что данные получены из достоверного исследования.
Пример А : нет преобразований
«Увеличение IV на единицу связано с
B1
увеличением ( ) единицы на DV».Пример Б : Результат преобразован
«Увеличение показателя на одну единицу связано с (
B1 * 100
) процентным увеличением DV».Пример C : Экспозиция трансформирована
«Увеличение процента на один процент связано с
B1 / 100
увеличением ( ) единицы на DV».Пример D : результат трансформирован и экспозиция трансформирована
«Один процент увеличения IV связан с (
B1
) процентным увеличением DV».источник
В log-log-модели вы увидите, что Напомним, что или Умножение этой последней формулировки на 100 дает процентное изменение . У нас есть аналогичные результаты для .
Используя этот факт, мы можем интерпретировать как процентное изменение для 1-процентного изменения .β1 y x
Следуя той же логике, для модели log-level мы имеем
источник
Основная цель линейной регрессии - оценить среднюю разницу результатов, сравнивая смежные уровни регрессора. Есть много видов средств. Мы наиболее знакомы с средним арифметическим.
AM - это то, что оценивается с использованием OLS и нетрансформированных переменных. Среднее геометрическое отличается:
Практически разница GM - это мультипликативная разница: вы платите X% премии в процентах при получении кредита, уровень гемоглобина снижается на X% после запуска метформина, частота отказов пружин увеличивается на X% как часть ширины. Во всех этих случаях грубая средняя разница имеет меньше смысла.
Логарифмическое преобразование оценивает среднюю геометрическую разницу. При входе в системе преобразования результата и смоделировать его в линейной регрессии , используя следующую формулу спецификацию:β1 X eβ1
log(y) ~ x
коэффициент является средней разностью результатов журнала сравнение соседних единиц . Это практически бесполезно, поэтому мы степень параметр и интерпретируем это значение как среднее геометрическое различие. X e β 1Например, в исследовании вирусной нагрузки ВИЧ после 10-недельного введения АРТ, мы могли бы оценить среднее геометрическое значение препоста . Это означает, что независимо от того, была ли вирусная нагрузка на исходном уровне, она была в среднем на 60% ниже или имела снижение в 0,6 раза при последующем наблюдении. Если бы исходная нагрузка составляла 10 000, моя модель предсказывала, что она будет равна 4000 в последующем, если бы она была 1000 в исходном состоянии, моя модель предсказывала, что она будет 400 в последующем (меньшая разница в исходном масштабе, но пропорционально так же).eβ1=0.40
Это важное отличие от других ответов : условием умножения логарифмического коэффициента на 100 является приближение когда мало. Если коэффициент (по логарифмической шкале), скажем, 0,05, то и интерпретация такова: «увеличение» результата на 5% для «увеличения» на 1 единицу . Однако, если коэффициент равен 0,5 , то , и мы интерпретировать это как «увеличение» 65% в для 1 единицу «увеличение» в . Это НЕ 50% увеличение.X exp ( 0,05 ) ≈ 1,05 X exp ( 0,5 ) = 1,65 Y Xlog(x)≈1−x X exp(0.05)≈1.05 X exp(0.5)=1.65 Y X
Предположим , что мы регистрируем преобразование предсказатель:x X β1
y ~ log(x, base=2)
. Здесь меня интересует мультипликативное изменение а не грубая разница. Я сейчас интересует сравнение участников , отличающихся по 2 раза в . Предположим, например, что я заинтересован в измерении инфекции (да / нет) после воздействия переносимого кровью патогена в различных концентрациях с использованием аддитивной модели риска. Биологическая модель может предполагать, что риск увеличивается пропорционально каждому удвоению концентрации. Затем я не свой результат, но предполагаемый коэффициент интерпретируется как разность рисков, сравнивая группы, подвергшиеся воздействию двукратных различий в концентрации инфекционного материала.X β 1Наконец,
log(y) ~ log(x)
просто применяются оба определения для получения мультипликативной разности, сравнивая группы, мультипликативно отличающиеся по уровням воздействия.источник