Если в линейной регрессии у меня есть категориальная переменная ... как я могу узнать статистическую значимость категориальной переменной?
Допустим, фактор имеет 10 уровней ... будет 10 различных результирующих t-значений под зонтиком одной факторной переменной ...
Мне кажется, что статистическая значимость проверяется для каждого уровня факторной переменной? Нет?
@Macro: Следуя вашему предложению, я построил следующий пример:
Кажется, что x3 полезен и должен быть включен в модель, из сравнения моделей ниже.
Но на самом деле это не так ...
n=100
x1=1:n
x2=(1:n)^2
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)
lm2=lm(y~x1+x2)
summary(lm2)
anova(lm1, lm2)
> anova(lm1, lm2)
Analysis of Variance Table
Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
Res.Df RSS Df Sum of Sq F Pr(>F)
1 96 82.782
2 97 146.773 -1 -63.99 74.207 1.401e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
x3
для генерацииy
s, поэтому он должен быть включен в модель, и значение согласуется с этим выводом.Ответы:
Вы правы в том, что эти говорят только о том, значительно ли среднее значение каждого уровня отличается от среднего эталонного уровня. Поэтому они говорят только о парных различиях между уровнями. Проверка значимости категорического предиктора в целом эквивалентна проверке наличия какой-либо неоднородности в средствах уровней предиктора. Когда в модели нет других предикторов, это классическая проблема ANOVA .p
Когда в модели есть другие предикторы. у вас есть два варианта проверки значимости категориального предиктора:
(1) Тест отношения правдоподобия: Предположим, что исход , количественные предикторы X I 1 , . , , , X i p и категориальный предиктор C i с k уровнями. Модель без категориального предиктораYi Xi1,...,Xip Ci k
ВL0
R
вас может соответствовать этой модели сlm()
командой и извлечь логарифмическое правдоподобие сlogLik
командой. Назовите это лог-вероятность . Далее вы можете согласовать модель с категориальным предиктором:где - фиктивная переменная, равная 1, если D i = j, и 0 в противном случае. К «го уровня является опорный уровень, поэтому есть только к - 1 слагаемых в сумме. будет автоматически делать это фиктивное кодирование для вас, если вы передадите категориальную переменную . Вы можете подобрать эту модель аналогичным образом и извлечь вероятность бревна, как указано выше. Назовите это лог-правдоподобие L 1 . Тогда, при нулевой гипотезе, что D i не имеет никакого эффекта,Bj 1 Di=j 0 k k−1 L1 Di
R
lm()
имеет распределение с k - 1χ2 k−1 степенями свободы. Таким образом, вы можете вычислить значение, используя in для проверки значимости.p
1-pchisq(2*(L1-L0),df=k-1)
R
(2) тест:F не вдаваясь в детали (которые похожи на LRT, за исключением того, что используются суммы квадратов, а не логарифмические вероятности), я объясню, как это сделать
R
. Если вы используете "полную" модель (то есть модель со всеми предикторами, включая категориальный предиктор) приR
использованииlm()
команды (вызовите этоg1
) и модель без категориального предиктора (вызовите этоg0
), тоanova(g1,g0)
эта гипотеза будет проверена для и вам того же.Примечание: оба подхода, которые я упомянул здесь, требуют нормальности ошибок. Кроме того, тест отношения правдоподобия является очень общим инструментом, используемым для вложенных сравнений, поэтому я упоминаю об этом здесь (и почему это происходит со мной в первую очередь), хотя тест более знаком при сравнении моделей линейной регрессии.F
источник