Как получить доверительный интервал по изменению r-квадрата населения

10

Ради простого примера предположим, что есть две модели линейной регрессии

  • Модель 1 имеет три предсказатели, x1a, x2b, иx2c
  • Модель 2 имеет три предиктора из модели 1 и два дополнительных предиктора x2aиx2b

Существует уравнение регрессии населения, где объясняется дисперсия населения для Модели 1 и для Модели 2. Инкрементная дисперсия, объясненная Моделью 2 в населении, равна ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ(1)2ρ(2)2Δρ2=ρ(2)2ρ(1)2

Я заинтересован в получении стандартных ошибок и доверительных интервалов для оценки . Хотя в примере задействованы 3 и 2 предиктора соответственно, мой исследовательский интерес касается широкого диапазона различного числа предикторов (например, 5 и 30). Моей первой мыслью было использовать в качестве оценщика и загрузить его, но я не был уверен, будет ли это подойдет. Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )Δρ2Δradj2=radj(2)2radj(1)2

Вопросов

  • Является ли разумной оценкой ? Д р 2Δradj2Δρ2
  • Как получить доверительный интервал для изменения r-квадрата населения (т. Е. )?Δρ2
  • Подойдет ли начальная загрузка для расчета доверительного интервала?Δρ2

Любые ссылки на симуляции или опубликованную литературу также приветствуются.

Пример кода

Если это поможет, я создал небольшой набор данных моделирования в R, который можно использовать для демонстрации ответа:

n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square

x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
               beta[4] * x$x2a + beta[5] * x$x2b, error_sd)

c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square - 
        summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square

Причина для беспокойства с начальной загрузкой

Я запустил начальную загрузку некоторых данных с примерно 300 случаями, 5 предикторами в простой модели и 30 предикторами в полной модели. В то время как выборочная оценка с использованием скорректированной разности r-квадрата была 0.116, увеличенный доверительный интервал был в основном больше CI95% (от 0,095 до 0,214), а среднее значение бутстрапов не было близко к выборочной оценке. Скорее среднее значение бустрепированных выборок, по-видимому, было сосредоточено на выборочной оценке разницы между r-квадратами в выборке. Это несмотря на то, что я использовал выборочные r-квадраты для оценки разницы.

Интересно, что я попробовал альтернативный способ вычисления какΔρ2

  1. рассчитать изменение r-квадрата образца
  2. отрегулируйте изменение r-квадрата образца, используя стандартную формулу R-квадрата

Применительно к выборочным данным это уменьшило оценку до, но доверительные интервалы казались подходящими для метода, который я упомянул первым, CI95% (.062, .179) со средним значением .118.Δρ2.082

В целом, я обеспокоен тем, что при начальной загрузке предполагается, что выборка представляет собой совокупность, и, следовательно, оценки, которые уменьшают для переоснащения, могут не работать надлежащим образом.

Джером англим
источник
«Тем не менее, я обеспокоен тем, что загрузка такого скорректированного значения для населения может быть проблематичной». -- Почему?
январь
@ Январь Я отредактировал вопрос и попытался сформулировать свою озабоченность по поводу начальной загрузки с откорректированным r-квадратом.
Джером Энглим
Какова численность населения R в квадрате ? Я посмотрел на приведенное здесь определение, но для меня дисперсия не имеет смысла, потому что не распределены одинаково. у яσy2yi
Стефан Лоран
@ StéphaneLaurent это процент дисперсии, объясняемый в популяции уравнением регрессии населения. Или вы можете определить это асимптотически как пропорцию дисперсии, объясненную в вашей выборке, когда размер выборки приближается к бесконечности. Смотрите также этот ответ относительно непредвзятых оценок населения r-квадрат . Это особенно актуально в психологии, где мы часто больше заинтересованы в истинных отношениях, чем в действительности применяем наше оценочное уравнение предсказания.
Джером Энглим
3
F-тест можно рассматривать как проверку гипотезы . Можно ли это использовать для получения стандартной ошибки и доверительного интервала, который вы ищете? Δρ2=0
Мартен Буис

Ответы:

3

НаселениеR2

Я сначала пытаюсь понять определение популяции R-квадрат .

Цитирую ваш комментарий:

Или вы можете определить это асимптотически как пропорцию дисперсии, объясненную в вашей выборке, когда размер выборки приближается к бесконечности.

Я думаю, вы имеете в виду, что это предел выборки когда каждый повторяет модель бесконечное число раз (с теми же предикторами в каждом повторении). R2

Так какова формула для асимптотического значения выборки ? Напишите свою линейную модель как в https://stats.stackexchange.com/a/58133/8402 , и используйте те же обозначения, что и эта ссылка. Затем можно проверить, что образец отправляется в когда кто-то повторяет модель бесконечно много раз.R² R2 p o p R 2 : = λY=μ+σG
R2 Y=μ+σGpopR2:=λn+λY=μ+σG

Как пример:

> ## design of the simple regression model lm(y~x0)
> n0 <- 10
> sigma <- 1
> x0 <- rnorm(n0, 1:n0, sigma)
> a <- 1; b <- 2 # intercept and slope
> params <- c(a,b)
> X <- model.matrix(~x0)
> Mu <- (X%*%params)[,1]
> 
> ## replicate this experiment k times 
> k <- 200
> y <- rep(Mu,k) + rnorm(k*n0)
> # the R-squared is:
> summary(lm(y~rep(x0,k)))$r.squared 
[1] 0.971057
> 
> # theoretical asymptotic R-squared:
> lambda0 <- crossprod(Mu-mean(Mu))/sigma^2
> lambda0/(lambda0+n0)
          [,1]
[1,] 0.9722689
> 
> # other approximation of the asymptotic R-squared for simple linear regression:
> 1-sigma^2/var(y)
[1] 0.9721834

Население подмоделиR2

Теперь предположим, что модель с и рассмотрим подмодель . H1:μW1H0:μW0Y=μ+σGH1:μW1H0:μW0

Тогда я сказал выше, что популяция модели является где и и тогда у каждого просто есть .H 1 p o p R 2 1 : = λ 1R2H1 λ1= P Z 1 μ2popR12:=λ1n+λ1 Z1=[1]W1| |РZ1ц| |2=Σ(ця-ˉц)2λ1=PZ1μ2σ2Z1=[1]W1PZ1μ2=(μiμ¯)2

Теперь вы определить население из подмодели как асимптотическое значение , рассчитанных по модели но при обобщенном предположении модели ? Асимптотическое значение (если оно есть) кажется труднее найти.H 0 R 2 H 0 H 1R2 H0R2H0H1

Стефан Лоран
источник
Спасибо Стефан. Мне нужно подумать о том, что вы говорите. Что касается вашего вопроса. Я предполагаю, что истинный процесс генерирования данных неизвестен, но он одинаков для обеих моделей, но существует истинная пропорция дисперсии, объясняемая линейной регрессией в модели 1 и модели 2.
Jeromy Anglim
@JeromyAnglim Формула (A3) этой статьи является частным случаем моей формулы для односторонней модели ANOVA. Таким образом, моя формула должна быть общим определением населения , но это не то, что вы используете в своем ОП. R2
Стефан Лоран
1
@JeromyAnglim Исследование этой статьи, кажется, близко к тому, что вы ищете (со случайными предикторами).
Стефан Лоран
Спасибо. Бумага Альгины, Кесельмана и Пенфилда выглядит очень полезной. Я добавил несколько комментариев к моему ответу об этом.
Jeromy Anglim
@JeromyAnglim Итак, каково предположение о предикторах? Они генерируются в соответствии с многомерным распределением Гаусса?
Стефан Лоран
1

Вместо того, чтобы отвечать на вопрос, который вы задали, я собираюсь спросить, почему вы задаете этот вопрос. Я полагаю, вы хотите знать,

mod.small <- lm(y ~ x1a + x1b + x1c, data=x)

по крайней мере так же хорошо, как

mod.large <- lm(y ~ ., data=x)

объясняя y. Поскольку эти модели являются вложенными, очевидный способ ответить на этот вопрос, по-видимому, состоит в том, чтобы выполнить анализ отклонений, сравнивая их, так же, как вы можете выполнить анализ отклонений для двух GLM, например

anova(mod.small, mod.large)

Тогда вы могли бы использовать выборку улучшения R-квадрата между моделями, как свою лучшую догадку о том, каким будет улучшение соответствия в популяции, всегда предполагая, что вы можете понять R-квадрат популяции. Лично я не уверен, что могу, но с этим это не имеет значения в любом случае.

В более общем смысле, если вас интересует количество популяции, вы, вероятно, заинтересованы в обобщении, поэтому мера подбора выборки - это не совсем то, что вам нужно, как бы «исправлено». Например, перекрестная проверка некоторого количества, которое оценивает вид и количество фактических ошибок, которые вы могли бы ожидать сделать из выборки, например MSE, может показаться тем, что вы хотите.

Но вполне возможно, что я что-то здесь упускаю ...

conjugateprior
источник
Я ценю ваш ответ, и это может быть хорошим советом для других. Но мой исследовательский контекст означает, что меня законно интересует площадь Дельта-Ро. В то время как большинство статистиков часто больше заботятся о предсказательной полезности модели (например, перекрестно проверенная дельта-квадрат), я ученый-психолог и особенно заинтересован в свойстве населения. Кроме того, меня не интересует статистическая значимость улучшения. Я заинтересован в размере улучшения. И я считаю, что дельта-г-квадрат является полезной метрикой для индексации такого размера улучшения.
Jeromy Anglim
Что касается MSE, в различных исследованиях по психологии используются меры по очень разным показателям. Таким образом, существует притяжение, правильное или неправильное, к стандартизированным мерам, таким как r-квадрат.
Jeromy Anglim
Достаточно справедливо, особенно на MSE. Меня по-прежнему немного смущает интерес к самозагрузке и выводам населения, но отсутствие интереса к тестированию, поскольку, возможно, наивно, эти проблемы кажутся эквивалентными по-разному. У меня также возникают трудности с четким разграничением выборочного прогнозирования от вывода для популяции, но, вероятно, это мешает байесианству до кофееного колена (где прогнозирование - просто еще одна проблема вывода населения).
conjugateprior
Возможно, я говорил немного быстро. В моем контексте исследований часто имеется много доказательств того, что квадрат дельта-ро больше нуля. Интересует вопрос, какова степень роста. То есть это тривиальное увеличение или теоретически значимое увеличение. Таким образом, достоверность или достоверные интервалы дают мне оценку неопределенности вокруг этого увеличения. Я еще не примирил то, что я делаю здесь, с моим пониманием байесовской статистики, но я бы хотел.
Jeromy Anglim
1

Следующее представляет несколько возможностей для вычисления доверительных интервалов на .ρ2

Двойной отрегулированный квадратный бутстрап

Мое настоящее лучшее предположение при ответе - сделать двойной корректировкой r-квадрат начальной загрузки. Я реализовал технику. Это включает в себя следующее:

  • Создайте набор образцов начальной загрузки из текущих данных.
  • Для каждого загруженного образца:
    • рассчитать первый скорректированный R-квадрат для двух моделей
    • вычислить второй скорректированный квадрат R на скорректированных значениях квадрата из предыдущего шага
    • Вычтите model2 из вторых скорректированных значений r-квадрата model1, чтобы получить оценку .Δρ2

Обоснование состоит в том, что первый скорректированный r-квадрат устраняет смещение, возникающее при начальной загрузке (т. Е. При начальной загрузке предполагается, что выборочный r-квадрат является r-квадратом населения). Второй откорректированный r-квадрат выполняет стандартную коррекцию, которая применяется к нормальной выборке для оценки r-квадрата населения.

На данный момент все, что я могу видеть, это то, что применение этого алгоритма генерирует оценки, которые кажутся правильными (то есть среднее значение theta_hat в начальной загрузке очень близко к образцу theta_hat). Стандартная ошибка совпадает с моей интуицией. Я еще не проверял, обеспечивает ли он надлежащее частое освещение там, где известен процесс генерирования данных, и я также не совсем уверен, как аргумент может быть оправдан из первых принципов.

Если кто-нибудь увидит какие-либо причины, почему такой подход будет проблематичным, я был бы рад услышать об этом.

Моделирование Альгины и др.

Стефан упомянул статью Альгины, Кесельмана и Пенфилда. Они выполнили имитационное исследование для изучения охвата 95% доверительного интервала бутстреппинга и асимптотических методов оценки . Их методы начальной загрузки включали только одно применение скорректированного r-квадрата, а не двойную корректировку r-квадрата, о которой я упоминал выше. Они обнаружили, что оценки начальной загрузки обеспечивали хорошее покрытие только тогда, когда число дополнительных предикторов в полной модели составляло один или, возможно, два. Я полагаю, что это связано с тем, что с увеличением числа предикторов увеличивается различие между одиночной и двойной скорректированной начальной загрузкой.Δρ2

Smithson (2001) об использовании параметра нецентральности

Смитсон (2001) обсуждает расчет доверительных интервалов для частичного на основе параметра нецентральности. См. Страницы 615 и 616 в частности. Он предполагает, что «легко построить КИ для и частичного но не для квадратичной полупартийной корреляции». (p.615)f 2 R 2R2f2R2

Ссылки

  • Альгина, Дж., Кесельман, Х.Дж., Пенфилд, Р.Д. Доверительные интервалы для квадрата коэффициента многократной полупариальной корреляции. PDF
  • Смитсон, М. (2001). Правильные доверительные интервалы для различных размеров и параметров регрессионного эффекта: Важность нецентральных распределений в вычислительных интервалах. Образовательные и психологические измерения, 61 (4), 605-632.
Джером англим
источник
1
Кажется, что никто здесь (включая вас) не знает определения вашей популяции в R-квадрате. Следовательно ИМХО это серьезно проблемный подход.
Стефан Лоран
@ StéphaneLaurent Спасибо за это. Признаюсь, что до этого момента я не рассматривал r-квадрат населения как свойство раздора. Например, я мог бы предложить процесс генерирования данных, и был бы r-квадрат, к которому приблизился бы, когда размер моей имитационной выборки приближался к бесконечности. И также я предполагаю, что для моих данных существует процесс генерирования данных, и, следовательно, если бы можно было получить бесконечную выборку, я мог бы рассчитать истинную r-квадрат населения.
Jeromy Anglim
Да, но у меня сложилось впечатление, что вы также предполагаете процесс генерации для предикторов. Я не могу понять, как это могло бы иметь смысл для общей линейной модели.
Стефан Лоран