Я заинтересован в изменении нулевых гипотез, используя glm()
в R.
Например:
x = rbinom(100, 1, .7)
summary(glm(x ~ 1, family = "binomial"))
проверяет гипотезу, что . Что если я захочу изменить значение null на = какое-то произвольное значение внутри ? рglm()
Я знаю, что это можно сделать также с помощью prop.test()
и chisq.test()
, но я хотел бы изучить идею использования glm()
для проверки всех гипотез, относящихся к категориальным данным.
r
hypothesis-testing
generalized-linear-model
chi-squared
offset
Билл Равенвуд
источник
источник
glm
Ответы:
Вы можете использовать смещение :β0знак равно 0 п Q= логит ( р ) = log( р / ( 1 - р ) )
glm
сfamily="binomial"
оценочными параметрами по лог-коэффициентам или по шкале логитов, так что соответствует лог-коэффициентам 0 или вероятности 0,5. Если вы хотите сравнить с вероятностью p , вы хотите, чтобы базовое значение было равно q = logit ( p ) = log ( p / ( 1 - p ) ) . Статистическая модель сейчасгде только последняя строка изменилась из стандартной настройки. В коде R:
offset(q)
в формулеqlogis(p)
rep(q,100)
.источник
glm(y ~ offset(q)-1, family=binomial, data=dd)
и используяlrtest
изlmtest
пакета. Критерий хи-квадрат Пирсона является тестом для модели GLM. Wald / LRT / Score - это последовательные тесты, которые должны обеспечивать эквивалентный вывод при достаточно больших размерах выборки.anova()
базу R на glm, чтобы пройти тест LRlrtest
делает.anova(.,test="Chisq")
?Посмотрите на доверительный интервал для параметров вашего GLM:
Это доверительный интервал для лог-шансов.
Для имеем log ( o d d s ) = log pр = 0,5 журнал( о дds ) = журналп1 - р= журнал1 = 0 р = 0,5
источник
confint
Не является (полностью) правильным / точным использование p-значений на основе z- / t-значений в функции glm.summary в качестве проверки гипотезы.
Это запутанный язык. Сообщаемые значения называются z-значениями. Но в этом случае они используют оценочную стандартную ошибку вместо истинного отклонения. Поэтому в действительности они ближе к т-значениям . Сравните следующие три выхода:
1) summary.glm
2) t-тест
3) z-тест
Они не являются точными значениями р. Точное вычисление p-значения с использованием биномиального распределения будет работать лучше (с вычислительной мощностью в настоящее время это не проблема). T-распределение, предполагающее гауссово распределение ошибки, не является точным (оно завышает p, превышение уровня альфа встречается реже в «реальности»). Смотрите следующее сравнение:
Черная кривая представляет равенство. Красная кривая ниже этого. Это означает, что для данного вычисленного значения p с помощью функции суммирования glm мы находим эту ситуацию (или большую разницу) реже, чем указывает значение p.
источник