Следует ли использовать поправки степеней свободы для определения параметров GLM?

11

Этот вопрос вдохновлен ответом Мартина здесь .

Предположим, что мы подходим к GLM для однопараметрического семейства, такого как биномиальная модель или модель Пуассона, и что это процедура полного правдоподобия (в отличие от квазипуассона). Тогда дисперсия является функцией среднего значения. С биномом: и с Пуассоном .var[X]=E[X]E[1X]var[X]=E[X]

В отличие от линейной регрессии, когда остатки обычно распределяются, конечное точное распределение выборки этих коэффициентов неизвестно, возможно, это сложная комбинация результатов и ковариат. Кроме того, используя оценку среднего значения GLM , которая будет использоваться в качестве плагина для оценки дисперсии результата.

Однако, как и в случае линейной регрессии, коэффициенты имеют асимптотическое нормальное распределение, и поэтому при конечном выборе выборки мы можем аппроксимировать распределение выборки с помощью нормальной кривой.

Мой вопрос: получаем ли мы что-либо, используя приближение T-распределения к распределению выборки коэффициентов в конечных выборках? С одной стороны, мы знаем дисперсию, но не знаем точного распределения, поэтому T-аппроксимация кажется неправильным выбором, когда оценщик начальной загрузки или складного ножа может правильно учесть эти расхождения. С другой стороны, возможно, небольшой консерватизм T-распределения просто предпочтителен на практике.

Adamo
источник
1
хороший вопрос. Возможно, вы захотите взглянуть на исправления Бартлетта .
Бен Болкер,
1
Я думаю, что этот вопрос некорректен, когда вы используете MLE или QMLE, у вас только асимптотически обоснованные оценки и выводы. На вопрос, нельзя ли ответить на предположение A или B лучше в конечных настройках, оно всегда будет сводиться к обыденному «зависит от данных и от того, какие предположения вы готовы сделать». Лично мне нравится самозагрузка, и я использую ее всякий раз, когда могу, но больше не ошибаюсь, если использую стандартный тест на основе z или t - он не позволяет избежать проблемы с небольшими данными, и поэтому вы все еще делаете предположения (только разные). )
Репмат

Ответы:

3

Краткий ответ: пока не полный ответ, но вас могут заинтересовать следующие распределения, связанные со связанным вопросом: он сравнивает z-тест (также используемый в glm) и t-тест

    layout(matrix(1:2,1,byrow=TRUE))

    # trying all 100 possible outcomes if the true value is p=0.7
    px <- dbinom(0:100,100,0.7)
    p_model = rep(0,101)
    p_model2 = rep(0,101)
    for (i in 0:100) {
      xi = c(rep(1,i),rep(0,100-i))
      model = glm(xi ~ 1, offset=rep(qlogis(0.7),100), family="binomial")
      p_model[i+1] = 1-summary(model)$coefficients[4]
      model2 <- glm(xi ~ 1, family = "binomial")
      coef <- summary(model2)$coefficients
      p_model2[i+1] = 1-2*pt(-abs((qlogis(0.7)-coef[1])/coef[2]),99,ncp=0)
    }


    # plotting cumulative distribution of outcomes z-test
    outcomes <- p_model[order(p_model)]
    cdf <- cumsum(px[order(p_model)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
    #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with z-test \n as function of set alpha level")


    # plotting cumulative distribution of outcomes t-test
    outcomes <- p_model2[order(p_model2)]
    cdf <- cumsum(px[order(p_model2)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
      #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with t-test \n as function of set alpha level")
    [![p-test vs t-test][1]][1]

И есть только небольшая разница. Кроме того, z-тест на самом деле лучше (но это может быть потому, что и t-тест, и z-тест «неправильны» и, возможно, ошибка z-теста компенсирует эту ошибку).

введите описание изображения здесь

Длинный ответ: ...

Секст Эмпирик
источник