Базовая настройка:
регрессионная модель: где C - вектор управляющих переменных.
Я заинтересован в и ожидаю, что \ beta_1 и \ beta_2 будут отрицательными. Однако в модели существует проблема мультиколлинеарности, коэффициент корреляции определяется как: corr ( x_1 , x_2) = 0,9345, corr ( x_1 , x_3) = 0,1765, corr ( x_2 , x_3) = 0,3019.
Таким образом, и сильно коррелированы, и они должны фактически предоставлять одну и ту же информацию. Я бегу три регрессии:
- исключить переменную ; 2. исключить переменную ; 3. оригинальная модель с и .
Результаты:
для регрессии 1 и 2 он обеспечивает ожидаемый знак для и соответственно и с аналогичной величиной. И и значимы на уровне 10% в обеих моделях после того, как я исправлю HAC в стандартной ошибке. является положительным, но не значимым в обеих моделях.
Но для 3, имеет ожидаемый знак, но знак для является положительным с величиной, вдвое превышающей по абсолютной величине. И оба и незначительны. Более того, величина для уменьшается почти вдвое по сравнению с регрессией 1 и 2.
Мой вопрос:
Почему в 3 знак становится положительным и намного больше, чем по абсолютной величине? Есть ли статистическая причина, по которой может перевернуть знак и имеет большую величину? Или это из-за того, что в моделях 1 и 2 отсутствует проблема с переменной переменной, которая завышена при условии, что положительно влияет на y? Но тогда в регрессионных моделях 1 и 2 оба параметра и должны быть положительными, а не отрицательными, поскольку общий эффект от и в регрессионной модели 3 положительный.
Простой ответ - нет глубокой причины.
Можно подумать о том, что, когда мультиколлинеарные подходы идеальны, конкретные значения, которые вы в конечном итоге получаете из аппроксимации, становятся все более и более зависимыми от все более мелких деталей данных. Если бы вы взяли один и тот же объем данных из одного и того же базового распределения, а затем подобрали, вы могли бы получить совершенно разные подогнанные значения.
источник