Сегодня я играл с небольшим набором данных и выполнил простую регрессию OLS, которую я ожидал потерпеть неудачу из-за совершенной мультиколлинеарности. Однако это не так. Это подразумевает, что мое понимание мультиколлинеарности неверно.
Мой вопрос: где я не прав?
Я думаю, что могу показать, что одна из моих переменных является линейной комбинацией других. Это должно привести к матрице регрессоров, которая не имеет полного ранга, и поэтому коэффициенты не должны быть идентифицированы.
Я сгенерировал небольшой воспроизводимый набор данных (код ниже) :
exporter importer flow dist intraUS
1 Canada Canada 996.8677 6.367287 0
2 Florida Canada 995.8219 9.190562 0
3 Texas Canada 1001.6475 4.359063 0
4 Mexico Canada 1002.4371 7.476649 0
5 Canada Florida 1002.8789 5.389223 0
6 Florida Florida 1007.5589 6.779686 1
7 Texas Florida 996.8938 1.570600 1
8 Mexico Florida 1005.6247 5.910133 0
9 Canada Texas 999.9190 7.887672 0
10 Florida Texas 1004.1061 7.187803 1
11 Texas Texas 1004.5949 7.564273 1
12 Mexico Texas 1000.3728 2.021297 0
13 Canada Mexico 1003.0991 5.887743 0
14 Florida Mexico 999.2210 3.058495 0
15 Texas Mexico 997.6092 6.835883 0
16 Mexico Mexico 1006.7934 5.794425 0
Каждый раз , когда экспортер и импортер являются американскими штатами, фиктивное intraUS
это 1
.
Теперь я выполняю регрессию (торговли) flow
с на exporter
и importer
манекенов, dist
ANCE и intraUS
соской. Подача R с помощью следующей формулы lm(flow ~ dist + exporter + importer + intraUS, data = dat)
возвращает оценки для всех коэффициентов, без пропущенных значений или предупреждения об особенностях:
(Intercept) dist exporterFlorida exporterTexas exporterMexico importerFlorida importerTexas importerMexico intraUS1
995.1033157 0.5744661 -1.2340338 -1.8792073 3.7375783 3.0361727 1.3256032 3.3225512 4.2429599
Это озадачивает меня, потому что матрица регрессоров ясно указывает на то, что intraUS
представляет собой линейную комбинацию exporterFlorida
, importerFlorida
, exporterTexas
и importerTexas
:
> mmat <- data.frame(model.matrix(lm(flow ~ dist + exporter + importer + intraUS, data = dat)))
X.Intercept. dist exporterFlorida exporterTexas exporterMexico importerFlorida importerTexas importerMexico intraUS1
1 1 6.367287 0 0 0 0 0 0 0
2 1 9.190562 1 0 0 0 0 0 0
3 1 4.359063 0 1 0 0 0 0 0
4 1 7.476649 0 0 1 0 0 0 0
5 1 5.389223 0 0 0 1 0 0 0
6 1 6.779686 1 0 0 1 0 0 1
7 1 1.570600 0 1 0 1 0 0 1
8 1 5.910133 0 0 1 1 0 0 0
9 1 7.887672 0 0 0 0 1 0 0
10 1 7.187803 1 0 0 0 1 0 1
11 1 7.564273 0 1 0 0 1 0 1
12 1 2.021297 0 0 1 0 1 0 0
13 1 5.887743 0 0 0 0 0 1 0
14 1 3.058495 1 0 0 0 0 1 0
15 1 6.835883 0 1 0 0 0 1 0
16 1 5.794425 0 0 1 0 0 1 0
Расчет exporterFlorida * importerFlorida + exporterFlorida * importerTexas + exporterTexas * importerFlorida + exporterTexas * importerTexas
дает - что неудивительно - точно значения в intraUS1
.
Итак, мой вопрос, опять же : почему эта регрессия не терпит неудачу, учитывая, что одна переменная является линейной комбинацией других?
Ниже полного кода воспроизведите оценку:
## Generate data ####
set.seed(1)
states <- c("Canada", "Florida", "Texas", "Mexico")
dat <- expand.grid(states, states)
colnames(dat) <- c("exporter", "importer")
dat[, "flow"] <- NA
dat[, "dist"] <- NA
dat[, "intraUS"] <- 0
for (i in 1:nrow(dat)) {
dat[i, c("flow", "dist")] <- c(rnorm(1, mean = 1000, sd = 5), rnorm(1, mean = 6, sd = 2))
if (dat[i, "exporter"] %in% states[2:3] && dat[i, "importer"] %in% states[2:3]) {
dat[i, "intraUS"] <- 1
}
}
dat$intraUS <- factor(dat$intraUS)
## Run regression - works! ####
summary(lm(flow ~ dist + exporter + importer + intraUS, data = dat))
## Show that "intraUS1" is a linear combination of the dummies. ####
mmat <- data.frame(model.matrix(lm(flow ~ dist + exporter + importer + intraUS, data = dat)))
cbind(mmat, test = with(mmat,
exporterFlorida * importerFlorida + exporterFlorida * importerTexas +
exporterTexas * importerFlorida + exporterTexas * importerTexas
))[, c("intraUS1", "test")]
Ответы:
Это не является линейной комбинацией
exporterFlorida
,importerFlorida
,importerTexas
иexporterTexas
. В линейной комбинации коэффициенты векторов должны быть постоянными . Так что-то вродепредставляет собой линейную комбинацию.
То, что у вас есть, можно было бы назвать квадратичной комбинацией, но это растягивает терминологию на землю "Я делаю вещи".
источник