Мне интересно, какова точная связь между частичным и коэффициентами в линейной модели и должен ли я использовать только один или оба, чтобы проиллюстрировать важность и влияние факторов.
Насколько я знаю, с помощью summary
я получаю оценки коэффициентов, а с anova
суммой квадратов для каждого фактора - доля суммы квадратов одного фактора, деленная на сумму суммы квадратов плюс остатки, является частичной (следующий код в ).R
library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe)
Residuals:
Min 1Q Median 3Q Max
-60.240 -15.738 -1.156 15.883 51.380
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 ***
income 8.065e-02 9.299e-03 8.674 2.56e-11 ***
young 8.173e-01 1.598e-01 5.115 5.69e-06 ***
urban -1.058e-01 3.428e-02 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 48087 48087 67.4869 1.219e-10 ***
young 1 19537 19537 27.4192 3.767e-06 ***
urban 1 6787 6787 9.5255 0.003393 **
Residuals 47 33489 713
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Размер коэффициентов для «молодого» (0,8) и «городского» (-0,1, примерно 1/8 от первого, игнорируя «-») не соответствует объясненной дисперсии («молодой» ~ 19500 и «городской» ~ 6790, то есть около 1/3).
Поэтому я подумал, что мне нужно будет масштабировать мои данные, потому что я предполагал, что если диапазон фактора намного шире, чем диапазон другого фактора, их коэффициенты будет трудно сравнивать:
Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)
Residuals:
Min 1Q Median 3Q Max
-1.29675 -0.33879 -0.02489 0.34191 1.10602
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.084e-16 8.046e-02 0.000 1.00000
income 9.723e-01 1.121e-01 8.674 2.56e-11 ***
young 4.216e-01 8.242e-02 5.115 5.69e-06 ***
urban -3.447e-01 1.117e-01 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 22.2830 22.2830 67.4869 1.219e-10 ***
young 1 9.0533 9.0533 27.4192 3.767e-06 ***
urban 1 3.1451 3.1451 9.5255 0.003393 **
Residuals 47 15.5186 0.3302
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Но это не имеет большого значения, частичное и размер коэффициентов (теперь это стандартизированные коэффициенты ) все еще не совпадают:
22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young: partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban: partial R2 0.062, Coeff -0.34
Так что справедливо ли сказать, что «молодой» объясняет в три раза большую дисперсию, чем «городской», потому что частичное для «молодого» в три раза больше, чем «городского»? Почему коэффициент «молодой» тогда не в три раза больше, чем «городской» (игнорируя знак)?
Я полагаю, что ответ на этот вопрос также скажет мне ответ на мой первоначальный запрос: должен ли я использовать частичное или коэффициенты, чтобы проиллюстрировать относительную важность факторов? (Игнорируя направление влияния - знак - пока.)
Редактировать:
Частичное eta-квадрат, кажется, является другим названием для того, что я назвал частичным . etasq {heplots} - полезная функция, которая дает похожие результаты:
etasq(mod)
Partial eta^2
income 0.6154918
young 0.3576083
urban 0.1685162
Residuals NA
Ответы:
Короче говоря , я бы не использовал и частичный и стандартизированные коэффициенты в одном и том же анализе, поскольку они не являются независимыми. Я бы сказал, что обычно, вероятно, более интуитивно понятно сравнивать отношения с использованием стандартизированных коэффициентов, поскольку они легко связаны с определением модели (т. Е. Y = β X ). Частичная R 2 , в свою очередь, является по существу доля уникальной общей дисперсии между предсказателем и зависимой переменной (Dv) (так что для первого предиктора это квадрат частичной корреляции г х 1 у . Х 2 . . . Х Nр2 Y= βИкс р2 рИкс1Y, Икс2, , , ИксN ). Кроме того, для подбора с очень маленькой ошибкой все коэффициенты имеют частичное значение 1, поэтому они бесполезны при определении относительной важности предикторов.р2
Определение размера эффекта
частичный - доля остаточного отклонения, объясняемая добавлением предиктора в ограниченную модель (полная модель без предиктора). Такой же как:р2
- разница в R 2 между ограниченной и полной моделью. Равно:Δ R2 р2
Все они тесно связаны, но отличаются тем, как они обрабатывают структуру корреляции между переменными. Чтобы немного лучше понять эту разницу, давайте предположим, что у нас есть 3 стандартизированные (среднее = 0, sd = 1) переменные , корреляции которых равны r x y , r x z , r y z . Мы будем принимать х в качестве зависимой переменной и у и гх , у, z рх у, гxz,ryz Икс Y Z в качестве предикторов. Мы будем выражать все коэффициенты размера эффекта в терминах корреляций, чтобы мы могли ясно видеть, как каждый обрабатывает структуру корреляции. Сначала мы перечислим коэффициенты в регрессионной модели оцененные с использованием OLS. Формула для коэффициентов:
β y = r x y - r y z r z xх = βYY+ βZZ
корень квадратный изчастичнойR2для предикторов будет равен:
anova
lm
Anova
car
anova(mod)
Anova(mod, type = 2)
options(contrasts = c("contr.sum","contr.poly"))
Anova(mod,type=3)
etasq()
кредит
Формула для частичной корреляции приведена в ответе ttnphns здесь: множественная регрессия или коэффициент частичной корреляции? И отношения между двумя
источник
Как уже объяснялось в нескольких других ответах и в комментариях, этот вопрос основывался как минимум на трех путаницах:
anova()
Anova()
car
После того, как эти недоразумения прояснены, остается вопрос о том, каковы наиболее подходящие показатели размера или важности эффекта предиктора.
В R есть пакет,
relaimpo
который обеспечивает несколько показателей относительной важности.Используя тот же
Anscombe
набор данных, что и в вашем вопросе, это дает следующие метрики:Некоторые из этих метрик уже обсуждались:
betasq
квадратные стандартизированные коэффициенты, те же значения, которые вы получили с помощьюlm()
.first
anova()
last
anova()
Есть еще четыре метрики
relaimpo
- и еще одна (пятая) доступна, если пакетrelaimpo
установлен вручную: версия CRAN исключает эту метрику из-за потенциального конфликта с ее автором, который, как ни странно, имеет патент США на свой метод , Я запускаю R онлайн и не имею доступа к нему, поэтому, если кто-то может установить вручнуюrelaimpo
, пожалуйста, добавьте этот дополнительный показатель к моим выводам выше для полноты.Есть две метрики,
pratt
которые могут быть отрицательными (плохими) иgenizi
довольно неясными.Два интересных подхода есть
lmg
иcar
.Второй вводится в (Zuber & Strimmer, 2011) и имеет много привлекательных теоретических свойств; это квадратичные стандартизированные коэффициенты после того, как предикторы были сначала стандартизированы, а затем отбелены с преобразованием ZCA / Mahalanobis (т.е. отбелены при минимизации ошибки восстановления).
lmg
car
Список используемой литературы:
Ссылки на относительную важность на веб -сайте Ульрике Грёмпинг - она является автором
relaimpo
.Grömping, U. (2006). Относительное значение для линейной регрессии в R: пакетлечений . Журнал статистического программного обеспечения 17, выпуск 1.
Grömping, U. (2007). Оценки относительной важности в линейной регрессии на основе дисперсионного разложения . Американский статистик 61, 139-147.
Зубер В. и Стриммер К. (2010). Высокомерная регрессия и выбор переменных с использованием показателей CAR . Статистические приложения в генетике и молекулярной биологии 10.1 (2011): 1-27.
Grömping, U. (2015). Переменная важность в регрессионных моделях . Междисциплинарные обзоры Wiley: вычислительная статистика, 7 (2), 137-152. (за платой)
источник
Вы написали:
Здесь важно не путать две вещи. Во-первых, возникает вопрос спецификации модели. Алгоритм lm предполагает выполнение OLS-предположений. Среди прочего это означает, что для несмещенных оценок в модели может отсутствовать переменная значимого NO (за исключением случаев, когда она некоррелирована со всеми другими регрессорами, редко).
Таким образом, при поиске модели дополнительное влияние на R² или скорректированное R², безусловно, представляет интерес. Можно подумать, что целесообразно добавлять регрессоры, например, до тех пор, пока скорректированное значение R² не прекратит улучшаться. Есть интересные проблемы с пошаговыми регрессионными процедурами, такими как эта, но это не тема. В любом случае я предполагаю, что была причина, по которой вы выбрали свою модель.
ОДНАКО: это дополнительное влияние на R² не идентично действительному или общему влиянию регрессора на независимую переменную именно из-за мультиколлинеарности: если вы уберете регрессор, часть его влияния теперь будет относиться к другим регрессорам, которые связаны с этим. Таким образом, настоящее влияние не показано правильно.
И есть еще одна проблема: оценки действительны только для полной модели со всеми другими регрессорами. Либо эта модель еще не верна, и поэтому обсуждение влияния не имеет смысла - или это правильно, и тогда вы не сможете устранить регрессор и все же успешно использовать методы OLS.
Итак: подходит ли ваша модель и использование OLS? Если это так, то оценки отвечают на ваш вопрос - они являются вашим буквальным лучшим предположением о влиянии переменных на регрессивную / зависимую переменную.
Если нет, то ваша первая работа - найти правильную модель. Для этого может быть использовано частичное R². Поиск по спецификации модели или ступенчатой регрессии даст много интересных подходов на этом форуме. Что работает, будет зависеть от ваших данных.
источник
relaimpo
том, чтобы предоставить альтернативы частичному R ^ 2, именно по той причине, которую дает IMA!relaimpo
пакету, я понял, что существует целый мир различных подходов к количественной оценке относительной важности предикторов в линейной регрессии. В настоящее время я просматриваю несколько статей, связанных там ( этот препринт 2010 года пока выглядит довольно хорошо), и это беспорядок! Я не понимал, что этот вопрос настолько сложен, когда я предложил свою награду. Кажется, это не было должным образом обсуждено в резюме. Это неясная тема? Если так, то почему?Что касается разницы между коэффициентом линейной регрессии и частичной корреляцией, вы можете прочитать это , например.
Однако путаница, выраженная в этом вопросе, кажется, имеет другую природу. Похоже, это тип сумм квадратов по умолчанию, используемый тем или иным статистическим пакетом (тема, неоднократно обсуждаемая на нашем сайте). Линейная регрессия использует то, что называется в расчете ANOVA Type III SS. Во многих программах ANOVA это тоже опция по умолчанию. В
R
функцииanova
мне кажется (я не пользователь R, так что я просто предполагаю, что) по умолчанию используется тип I SS («последовательный SS», который зависит от порядка, в котором предикторы указаны в модели). Итак, несоответствие, которое вы наблюдали и которое не исчезло при стандартизации («масштабировании») ваших переменных, заключается в том, что вы указали ANOVA с параметром Type I по умолчанию.Ниже приведены результаты, полученные в SPSS с вашими данными:
В этих распечатках вы можете указать, что параметры (коэффициенты регрессии) одинаковы независимо от типа расчета СС. Вы также можете заметить, что частичный Eta в квадрате [который является SSeffect / (SSeffect + SSerror) и = частичный R-квадрат в нашем случае, потому что предикторы являются числовыми ковариатами], полностью совпадает в таблице эффектов и коэффициентов только при типе SS это III. Когда тип SS равен I, только последний из 3 предикторов «городской» сохраняет то же значение (.169); это потому, что в последовательности ввода предикторов это последний. В случае SS типа III порядок ввода не имеет значения, как в регрессии. Кстати, это несоответствие наблюдается и в p-значениях. Хотя вы не видите этого в моих таблицах, потому что в столбце "Sig" есть только 3 десятичных знака,
Возможно, вы захотите прочитать больше о различных «типах SS» в ANOVA / линейной модели. Концептуально, тип III или «регрессионный» тип СС является фундаментальным и изначальным. Другие типы СС (I, II, IV, их существует даже больше) являются специальными устройствами для более полной оценки эффектов, менее расточительными, чем позволяют параметры регрессии в ситуации коррелированных предикторов.
Как правило, размеры эффектов и их p-значения важнее сообщать, чем параметры и их p-значения, если только целью исследования не является создание модели для будущего. Параметры - это то, что позволяет вам предсказывать, но «влияние» или «эффект» могут быть более широким понятием, чем «сила линейного предсказания». Чтобы сообщить о влиянии или важности, возможны и другие коэффициенты, кроме квадрата Eta. Одним из них является коэффициент оставления одного: важностью предиктора является остаточная сумма квадратов с предиктором, удаленным из модели, нормализованным, так что значения важности для всех предикторов составляют 1.
источник