Диагностика коллинеарности проблематична только тогда, когда включен термин взаимодействия

26

Я провел регрессию по округам США и проверяю коллинеарность в моих «независимых» переменных. Belsley, Kuh и Welsch's Regression Diagnostics предлагают взглянуть на Пропорции индекса состояния и дисперсии дисперсии:

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279        

?HH::vif предполагает, что VIF> 5 проблематичны:

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867 

Принимая во внимание, что Диагностика регрессии Джона Фокса предлагает рассмотреть квадратный корень VIF:

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329 

В первых двух случаях (где предлагается четкое ограничение) модель проблематична только тогда, когда включен термин взаимодействия.

Модель с термином взаимодействия до этого момента была моей предпочтительной спецификацией.

У меня есть два вопроса с учетом этой причуды данных:

  1. Всегда ли термин взаимодействия ухудшает коллинеарность данных?
  2. Поскольку две переменные без члена взаимодействия не превышают пороговое значение, я в порядке, используя модель с членом взаимодействия. В частности, причина, по которой я думаю, что это может быть хорошо, заключается в том, что я использую метод Кинга, Томза и Виттенберга (2000) для интерпретации коэффициентов (модель отрицательных биномов), где я обычно держу другие коэффициенты в среднем, а затем интерпретировать, что происходит с предсказаниями моей зависимой переменной, когда я двигаюсь inc09_10kи двигаюсь unins09независимо и совместно.
Ари Б. Фридман
источник

Ответы:

31

Да, это обычно имеет место с нецентрированными взаимодействиями. Быстрый взгляд на то, что происходит с корреляцией двух независимых переменных и их «взаимодействием»

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

И тогда, когда вы центрируете их:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

Икс, Икс2, ,,,

Таким образом, вы можете сделать это с вашей парой.


Что касается того, почему центрирование помогает - но давайте вернемся к определению ковариации

Cov(Икс,ИксY)знак равноЕ[(Икс-Е(Икс))(ИксY-Е(ИксY))]знак равноЕ[(Икс-μИкс)(ИксY-μИксY)]знак равноЕ[Икс2Y-ИксμИксY-ИксYμИкс+μИксμИксY]знак равноЕ[Икс2Y]-Е[Икс]μИксY-Е[ИксY]μИкс+μИксμИксY

Даже учитывая независимость X и Y

знак равноЕ[Икс2]Е[Y]-μИксμИксμY-μИксμYμИкс+μИксμИксμYзнак равно(σИкс2+μИкс2)μY-μИкс2μYзнак равноσИкс2μY

ИксY


ИксИксYYИксИксYY

аффинных
источник
Интересно, спасибо. У вас есть объяснение или цитата, почему центрирование имеет значение?
Ари Б. Фридман
Я думаю, что как-то этот ответ не заслуживает всего вознаграждения, но я хотел бы дать ему половину вознаграждения. Не уверен, что это произойдет, если у него нет второго голоса, хотя: - /.
Ари Б. Фридман
1
@ AriB.Friedman, у вас нет (точно) возможности дать половину награды. Вы не можете присудить награду (хотя вы все равно потеряете представителя в любом случае), и этот пост, вероятно, будет награжден половиной награды автоматически (см. Соответствующий раздел страницы справки ). Однако, почему этот ответ не заслуживает награды? Аффин точно здесь (+1).
gung - Восстановить Монику
@ Gung Я искал предварительно редактировать. Определенно заслуживает этого сейчас. Спасибо @Affine! Что касается части с половиной вознаграждений, то, насколько я понимаю, >=ответ +2 получает половину вознаграждения, если вознаграждение не присуждается вручную.
Ари Б. Фридман
@ AriB.Friedman, это правильно, но прежде чем я прокомментировал (и проголосовал, и кто-то еще сделал), у него не было 2+ голосов.
gung - Восстановить Монику
0

Я нашел следующие публикации на эту тему полезными:

Robinson & Schumacker (2009): эффекты взаимодействия: центрирование, дисперсионный фактор инфляции и проблемы интерпретации

«Влияние масштабирования предикторов на коэффициенты уравнений регрессии (центрированные по сравнению с нецентрированными решениями и эффекты взаимодействия более высокого порядка (трехсторонние взаимодействия; категорические по непрерывным эффектам) было тщательно освещено Aiken and West (1991). Их пример иллюстрирует значительную мультиколлинеарность вводится в уравнение регрессии с членом взаимодействия, когда переменные не центрированы. '

Afshartous & Preston (2011): основные результаты моделей взаимодействия с центрированием

«Мотивации для использования переменного центрирования включают улучшенную интерпретируемость коэффициентов и уменьшенную числовую нестабильность для оценки, связанной с мультиколлинеарностью».

Очевидно, Айкен и Уэст (1991) также освещают эту тему, но у меня нет их книги.

похлопывание
источник