Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R:
a.lm = lm(Y ~ x1 + x2)
x1
является непрерывной переменной x2
является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод, заданный R, будет выглядеть примерно так:
summary(a.lm)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.521 0.20 1.446 0.19
x1 -0.61 0.11 1.451 0.17
x2Low -0.78 0.22 -2.34 0.005
x2Medium -0.56 0.45 -2.34 0.005
Я понимаю, что R вводит некое фиктивное кодирование таких факторов ( x2
будучи фактором). Мне просто интересно, как мне интерпретировать x2
значение "Высокий"? Например, как влияет «High» x2
на переменную response в приведенном здесь примере?
Я видел примеры этого в другом месте (например, здесь ), но не нашел объяснения, которое мог бы понять.
r
regression
categorical-data
regression-coefficients
categorical-encoding
machine-learning
random-forest
anova
spss
r
self-study
bootstrap
monte-carlo
r
multiple-regression
partitioning
neural-networks
normalization
machine-learning
svm
kernel-trick
self-study
survival
cox-model
repeated-measures
survey
likert
correlation
variance
sampling
meta-analysis
anova
independence
sample
assumptions
bayesian
covariance
r
regression
time-series
mathematical-statistics
graphical-model
machine-learning
linear-model
kernel-trick
linear-algebra
self-study
moments
function
correlation
spss
probability
confidence-interval
sampling
mean
population
r
generalized-linear-model
prediction
offset
data-visualization
clustering
sas
cart
binning
sas
logistic
causality
regression
self-study
standard-error
r
distributions
r
regression
time-series
multiple-regression
python
chi-squared
independence
sample
clustering
data-mining
rapidminer
probability
stochastic-processes
clustering
binary-data
dimensionality-reduction
svd
correspondence-analysis
data-visualization
excel
c#
hypothesis-testing
econometrics
survey
rating
composite
regression
least-squares
mcmc
markov-process
kullback-leibler
convergence
predictive-models
r
regression
anova
confidence-interval
survival
cox-model
hazard
normal-distribution
autoregressive
mixed-model
r
mixed-model
sas
hypothesis-testing
mediation
interaction
ttnphns
источник
источник
Ответы:
Q: «... как мне интерпретировать значение x2 как« высокое »? Например, как влияет« x2s »на переменную ответа в приведенном здесь примере?
A: Вы без сомнения заметили, что в выводе нет упоминания о x2 = "High". На данный момент x2High выбран в качестве «базового варианта». Это потому, что вы предложили факторную переменную с кодировкой по умолчанию для уровней, несмотря на порядок, который был бы более естественным для человеческого разума L / M / H. Но «H», будучи лексически перед буквами «L» и «M» в алфавите, было выбрано R в качестве базового варианта.
Поскольку «x2» не был упорядочен, каждый из представленных контрастов относился к x2 = «High», поэтому x2 == «Low» оценивалось в -0,78 относительно x2 = «High». В данный момент Intercept является оценочным значением «Y», когда x2 = «High» и x1 = 0. Возможно, вы захотите повторно запустить регрессию после изменения порядка уровней (но не упорядочения коэффициента).
Тогда ваши оценки «Средний» и «Высокий» будут в большей степени соответствовать вашим ожиданиям.
Изменить: Есть альтернативные устройства кодирования (или более точно расположение модельной матрицы.) Выбор по умолчанию для контрастов в R является «лечение контрасты», которое задает один уровень фактора (или одну конкретной комбинацию уровней факторов) в качестве опорного уровня и отчетов расчетные средние различия для других уровней или комбинаций. Однако вы можете иметь опорный уровень в качестве общего среднего значения, установив значение «Перехват» равным 0 (не рекомендуется) или воспользовавшись одним из других вариантов контрастности:
Вы можете выбирать разные контрасты для разных факторов, хотя это может создать дополнительное бремя интерпретации. S-Plus по умолчанию использует контрасты Хельмерта, а SAS использует контрасты лечения, но выбирает последний уровень фактора, а не первый, в качестве контрольного уровня.
источник
x2
не может иметь «никакой ценности», поскольку оно должно быть одним из «High», «Medium» или «Low». Спасибо за Ваш ответ.