Ради простого примера предположим, что есть две модели линейной регрессии
- Модель 1 имеет три предсказатели,
x1a
,x2b
, иx2c
- Модель 2 имеет три предиктора из модели 1 и два дополнительных предиктора
x2a
иx2b
Существует уравнение регрессии населения, где объясняется дисперсия населения для Модели 1 и для Модели 2. Инкрементная дисперсия, объясненная Моделью 2 в населении, равна ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )
Я заинтересован в получении стандартных ошибок и доверительных интервалов для оценки . Хотя в примере задействованы 3 и 2 предиктора соответственно, мой исследовательский интерес касается широкого диапазона различного числа предикторов (например, 5 и 30). Моей первой мыслью было использовать в качестве оценщика и загрузить его, но я не был уверен, будет ли это подойдет. Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )
Вопросов
- Является ли разумной оценкой ? Д р 2
- Как получить доверительный интервал для изменения r-квадрата населения (т. Е. )?
- Подойдет ли начальная загрузка для расчета доверительного интервала?
Любые ссылки на симуляции или опубликованную литературу также приветствуются.
Пример кода
Если это поможет, я создал небольшой набор данных моделирования в R, который можно использовать для демонстрации ответа:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Причина для беспокойства с начальной загрузкой
Я запустил начальную загрузку некоторых данных с примерно 300 случаями, 5 предикторами в простой модели и 30 предикторами в полной модели. В то время как выборочная оценка с использованием скорректированной разности r-квадрата была 0.116
, увеличенный доверительный интервал был в основном больше CI95% (от 0,095 до 0,214), а среднее значение бутстрапов не было близко к выборочной оценке. Скорее среднее значение бустрепированных выборок, по-видимому, было сосредоточено на выборочной оценке разницы между r-квадратами в выборке. Это несмотря на то, что я использовал выборочные r-квадраты для оценки разницы.
Интересно, что я попробовал альтернативный способ вычисления как
- рассчитать изменение r-квадрата образца
- отрегулируйте изменение r-квадрата образца, используя стандартную формулу R-квадрата
Применительно к выборочным данным это уменьшило оценку до, но доверительные интервалы казались подходящими для метода, который я упомянул первым, CI95% (.062, .179) со средним значением .118..082
В целом, я обеспокоен тем, что при начальной загрузке предполагается, что выборка представляет собой совокупность, и, следовательно, оценки, которые уменьшают для переоснащения, могут не работать надлежащим образом.
источник
Ответы:
Населениер2
Я сначала пытаюсь понять определение популяции R-квадрат .
Цитирую ваш комментарий:
Я думаю, вы имеете в виду, что это предел выборки когда каждый повторяет модель бесконечное число раз (с теми же предикторами в каждом повторении).р2
Так какова формула для асимптотического значения выборки ? Напишите свою линейную модель как в https://stats.stackexchange.com/a/58133/8402 , и используйте те же обозначения, что и эта ссылка. Затем можно проверить, что образец отправляется в когда кто-то повторяет модель бесконечно много раз.р2 R2 p o p R 2 : = λY= μ + σг
р2 Y=μ+σGр о р р2: = λn + λ Y= μ + σг
Как пример:
Население подмоделир2
Теперь предположим, что модель с и рассмотрим подмодель . H1:μ∈W1H0:μ∈W0Y= μ + σг ЧАС1: µ ∈ W1 ЧАС0: µ ∈ W0
Тогда я сказал выше, что популяция модели является где и и тогда у каждого просто есть .H 1 p o p R 2 1 : = λ 1р2 ЧАС1 λ1=‖ P Z 1 μ‖2р о р р21: = λ1n + λ1 Z1=[1]⊥∩W1| |РZ1ц| |2=Σ(ця-ˉц)2λ1= ∥ PZ1μ ∥2σ2 Z1= [ 1 ]⊥∩ W1 ∥ PZ1μ ∥2= ∑ ( μя- μ¯)2
Теперь вы определить население из подмодели как асимптотическое значение , рассчитанных по модели но при обобщенном предположении модели ? Асимптотическое значение (если оно есть) кажется труднее найти.H 0 R 2 H 0 H 1р2 ЧАС0 р2 ЧАС0 ЧАС1
источник
Вместо того, чтобы отвечать на вопрос, который вы задали, я собираюсь спросить, почему вы задаете этот вопрос. Я полагаю, вы хотите знать,
по крайней мере так же хорошо, как
объясняя
y
. Поскольку эти модели являются вложенными, очевидный способ ответить на этот вопрос, по-видимому, состоит в том, чтобы выполнить анализ отклонений, сравнивая их, так же, как вы можете выполнить анализ отклонений для двух GLM, напримерТогда вы могли бы использовать выборку улучшения R-квадрата между моделями, как свою лучшую догадку о том, каким будет улучшение соответствия в популяции, всегда предполагая, что вы можете понять R-квадрат популяции. Лично я не уверен, что могу, но с этим это не имеет значения в любом случае.
В более общем смысле, если вас интересует количество популяции, вы, вероятно, заинтересованы в обобщении, поэтому мера подбора выборки - это не совсем то, что вам нужно, как бы «исправлено». Например, перекрестная проверка некоторого количества, которое оценивает вид и количество фактических ошибок, которые вы могли бы ожидать сделать из выборки, например MSE, может показаться тем, что вы хотите.
Но вполне возможно, что я что-то здесь упускаю ...
источник
Следующее представляет несколько возможностей для вычисления доверительных интервалов на .ρ2
Двойной отрегулированный квадратный бутстрап
Мое настоящее лучшее предположение при ответе - сделать двойной корректировкой r-квадрат начальной загрузки. Я реализовал технику. Это включает в себя следующее:
Обоснование состоит в том, что первый скорректированный r-квадрат устраняет смещение, возникающее при начальной загрузке (т. Е. При начальной загрузке предполагается, что выборочный r-квадрат является r-квадратом населения). Второй откорректированный r-квадрат выполняет стандартную коррекцию, которая применяется к нормальной выборке для оценки r-квадрата населения.
На данный момент все, что я могу видеть, это то, что применение этого алгоритма генерирует оценки, которые кажутся правильными (то есть среднее значение theta_hat в начальной загрузке очень близко к образцу theta_hat). Стандартная ошибка совпадает с моей интуицией. Я еще не проверял, обеспечивает ли он надлежащее частое освещение там, где известен процесс генерирования данных, и я также не совсем уверен, как аргумент может быть оправдан из первых принципов.
Если кто-нибудь увидит какие-либо причины, почему такой подход будет проблематичным, я был бы рад услышать об этом.
Моделирование Альгины и др.
Стефан упомянул статью Альгины, Кесельмана и Пенфилда. Они выполнили имитационное исследование для изучения охвата 95% доверительного интервала бутстреппинга и асимптотических методов оценки . Их методы начальной загрузки включали только одно применение скорректированного r-квадрата, а не двойную корректировку r-квадрата, о которой я упоминал выше. Они обнаружили, что оценки начальной загрузки обеспечивали хорошее покрытие только тогда, когда число дополнительных предикторов в полной модели составляло один или, возможно, два. Я полагаю, что это связано с тем, что с увеличением числа предикторов увеличивается различие между одиночной и двойной скорректированной начальной загрузкой.Δρ2
Smithson (2001) об использовании параметра нецентральности
Смитсон (2001) обсуждает расчет доверительных интервалов для частичного на основе параметра нецентральности. См. Страницы 615 и 616 в частности. Он предполагает, что «легко построить КИ для и частичного но не для квадратичной полупартийной корреляции». (p.615)f 2 R 2R2 f2 R2
Ссылки
источник