Я пытаюсь интерпретировать дисперсии коэффициентов инфляции с использованием vif
функции в пакете R car
. Функция печатает как обобщенный и . Согласно файлу справки , это последнее значение
Чтобы настроить размер доверительного эллипсоида, функция также печатает GVIF ^ [1 / (2 * df)], где df - степени свободы, связанные с термином.
Я не понимаю смысла этого объяснения в файле справки, поэтому я не уверен, должен ли я использовать или . Для моей модели эти два значения очень разные (максимальное значение равно ~ ; максимальное значение равно ~ ).
Может ли кто-нибудь объяснить мне, какой из них мне следует использовать, и что подразумевается под настройкой размера доверительного эллипсоида?
источник
Я столкнулся с точно таким же вопросом и попытался проработать свой путь. Смотрите мой подробный ответ ниже.
Прежде всего, я нашел 4 варианта, которые дают похожие значения VIF в R:
•
corvif
команда из пакета AED,•
vif
команда из пакета автомобилей,•
vif
команда из пакета rms,•
vif
команда из пакета DAAG.Использование этих команд на наборе предикторов, не включающем какие-либо факторы / категориальные переменные или полиномиальные термины, является прямым шагом вперед. Все три команды выдают одинаковый числовой вывод, хотя
corvif
команда из пакета AED помечает результаты как GVIF.Однако, как правило, GVIF вступает в игру только для факторов и полиномиальных переменных. Переменные, которые требуют более 1 коэффициента и, следовательно, более 1 степени свободы, обычно оцениваются с использованием GVIF. Для однофакторных членов VIF равен GVIF.
Таким образом, вы можете применять стандартные эмпирические правила о том, может ли быть коллинеарность, например пороговое значение 3, 5 или 10. Тем не менее, некоторая осторожность может (должна) быть применена (см .: http://www.nkd-group.com/ghdash/mba555/PDF/VIF%20article.pdf ).
В случае многофакторных терминов, например, для категориальных предикторов, 4 пакета выдают разные результаты.
vif
команды из среднеквадратичных и пакетов Daag производят значения VIF, в то время как две других значений производят GVIF.Давайте сначала посмотрим на значения VIF из пакетов rms и DAAG:
TNAP и ICE являются непрерывными предикторами, а Reg является категориальной переменной, представленной фиктивными переменными RegB-RegE. В этом случае RegA является базовой линией. Все значения VIF довольно умеренные и обычно не о чем беспокоиться. Проблема с этим результатом заключается в том, что на него влияет базовая линия категориальной переменной. Чтобы быть уверенным в том, что значение VIF не превышает допустимый уровень, необходимо повторить этот анализ для каждого уровня категориальной переменной, являющейся базовой линией. В этом случае пять раз.
Применяя
corvif
команду из пакета AED илиvif
команду из автомобильного пакета, создаются значения GVIF:GVIF рассчитывается для наборов связанных регрессоров, таких как набор фиктивных регрессоров. Для двух непрерывных переменных TNAP и ICE это то же самое, что и значения VIF ранее. Для категориальной переменной Reg мы теперь получаем одно очень высокое значение GVIF, даже если все значения VIF для отдельных уровней категориальной переменной были умеренными (как показано выше).
источник
[ASK QUESTION]
вверху и задайте его там, тогда мы можем помочь вам должным образом. Поскольку вы новичок здесь, вы можете принять участие в нашем туре , который содержит информацию для новых пользователей.Fox & Monette (оригинальная цитата для GVIF, GVIF ^ 1 / 2df) предлагает принять GVIF до степени 1 / 2df, что делает значение GVIF сопоставимым по разному количеству параметров. «Это аналогично получению квадратного корня от обычного фактора дисперсии-инфляции» (от An R и S-Plus Companion до Прикладной регрессии Джона Фокса). Так что да, возведение в квадрат и применение обычного эмпирического правила VIF кажется разумным.
источник