В настоящее время я оцениваю мультиколлинеарность в моих наборах данных.
Какие пороговые значения VIF и индекса состояния ниже / выше указывают на проблему?
VIF: я слышал, что VIF является проблемой.
После удаления двух проблемных переменных VIF равен для каждой переменной. Нужно ли обрабатывать переменные или этот VIF-файл выглядит нормально?
Индекс состояния: я слышал, что индекс состояния (CI), равный 30 или более, является проблемой. Мой самый высокий CI - 16,66. Это проблема?
Другие вопросы:
- Существуют ли какие-либо другие элементы, которые необходимо учитывать?
- Есть ли другие вещи, которые мне нужно иметь в виду?
Ответы:
Проблема мультиколлинеарности хорошо изучена в большинстве эконометрических учебников. Более того, в википедии есть хорошая статья, в которой кратко изложены основные вопросы.
На практике каждый начинает помнить о проблеме мультиколлинеарности, если она вызывает некоторые визуальные признаки нестабильности параметров (большинство из них вытекает из (плохой) обратимости матрицы ):ИксTИкс
вероятно, не теоретически, поскольку может случиться (и обычно так), что вам нужны все переменные, чтобы присутствовать в модели. Исключение релевантных переменных (проблема с пропущенными переменными) в любом случае приведет к необъективным и непоследовательным оценкам параметров. С другой стороны, вы можете быть вынуждены включить все переменные фокуса просто потому, что ваш анализ основан на нем. В подходе интеллектуального анализа данных вы более техничны в поиске наилучшего соответствия.
Так что имейте в виду альтернативы (которые я бы использовал сам):
Некоторые другие хитрости есть в статье вики, указанной выше.
источник
Я полагаю, что Belsely сказал, что CI больше 10 указывает на возможную умеренную проблему, в то время как более 30 - более серьезная.
Кроме того, однако, вы должны посмотреть на дисперсию, разделяемую наборами переменных в индексах высокого состояния. Существует дискуссия (или была, когда я в последний раз читал эту литературу) о том, была ли коллинеарность, включающая одну переменную и перехват, проблематичной или нет, и было ли центрирование ошибочной переменной избавлено от проблемы или просто переместило ее в другое место.
источник