Я понимаю, что критерий Вальда для коэффициентов регрессии основан на следующем свойстве, которое выполняется асимптотически (например, Вассерман (2006): Вся статистика , стр. 153, 214-215): Где обозначает предполагаемый коэффициент регрессии, обозначает стандартную ошибку коэффициента регрессии, а представляет собой интересующее значение ( обычно равно 0, чтобы проверить, является ли коэффициент значительно отличается от 0). Итак, тест size Wald: отклонить когдаβ^се(β)β0β0αH0| W| >zα/2
Но когда вы выполняете линейную регрессию с помощью lm
в R, значение вместо значения используется для проверки, значительно ли отличаются коэффициенты регрессии от 0 (с ). Кроме того, вывод в R иногда дает - и иногда качестве тестовой статистики. По-видимому, значения используются, когда предполагается, что параметр дисперсии известен, а значения используются, когда оценивается параметр дисперсии (см. Эту ссылку ).з з т з тsummary.lm
glm
Может ли кто-нибудь объяснить, почему распределение иногда используется для теста Вальда, даже если предполагается, что отношение коэффициента и его стандартной ошибки распределено как стандартная норма?
Изменить после ответа на вопрос
Этот пост также предоставляет полезную информацию к вопросу.
источник
lm
glm
Ответы:
РезультатZ λ T
glm
использования распределения Пуассона дает значение, потому что с распределением Пуассона среднее значение и параметр дисперсии одинаковы. В модели Пуассона вам нужно оценить только один параметр ( λ ). Там, где вы должны оценить как среднее значение, так и параметр дисперсии, вы должны увидеть используемое t- распределение.glm
Для стандартной линейной регрессии предполагается, что термин ошибки обычно распределен. Здесь должен быть оценен параметр дисперсии - отсюда использование распределения для тестовой статистики. Если вы как-то знали дисперсию популяции для термина ошибки, вы могли бы вместо этого использовать статистику z -test.T Z
источник
В целом, в рамках GLM, упомянутая вами статистика W- теста асимптотически нормально распределена, поэтому вы видите в R значения z .
В дополнение к этому, при работе с линейной моделью, т. Е. GLM с нормальной распределенной переменной отклика, распределение статистики теста - это t ученика , поэтому в R у вас есть t значений.
источник