Вопросы с тегом «multicollinearity»

Ситуация, когда существует сильная линейная связь между предикторными переменными, так что их корреляционная матрица становится (почти) единственной. Это «плохое состояние» затрудняет определение уникальной роли, которую играет каждый из предикторов: возникают проблемы с оценкой и увеличиваются стандартные ошибки. Двусторонние очень высококоррелированные предикторы являются одним примером мультиколлинеарности.

85
Есть ли интуитивное объяснение, почему мультиколлинеарность является проблемой линейной регрессии?

В вики обсуждаются проблемы, возникающие, когда мультиколлинеарность является проблемой линейной регрессии. Основная проблема заключается в том, что мультиколлинеарность приводит к нестабильным оценкам параметров, что очень затрудняет оценку влияния независимых переменных на зависимые переменные. Я...

70
Почему можно получить значительную статистику F (p <.001), но не значимые t-тесты регрессора?

Почему при множественной линейной регрессии возможно иметь очень значительную F-статистику (p <.001), но иметь очень высокие p-значения во всех t-тестах регрессора? В моей модели 10 регрессоров. Один имеет значение р 0,1, а остальные выше 0,9 Для решения этой проблемы см. Следующий вопрос...

66
Какая корреляция делает матрицу сингулярной и каковы значения сингулярности или почти сингулярности?

Я делаю некоторые вычисления на разных матрицах (в основном в логистической регрессии), и я обычно получаю ошибку «Матрица является единственной», где я должен вернуться и удалить коррелированные переменные. Мой вопрос здесь: что бы вы назвали «сильно» коррелированной матрицей? Существует ли...

45
Каков эффект наличия коррелированных предикторов в модели множественной регрессии?

Я узнал в классе линейных моделей, что если два предиктора коррелированы и оба включены в модель, один из них будет незначительным. Например, предположим, что размер дома и количество спален взаимосвязаны. При прогнозировании стоимости дома с использованием этих двух предикторов один из них может...

44
Почему мультиколлинеарность не проверяется в современной статистике / машинном обучении

В традиционной статистике при построении модели мы проверяем мультиколлинеарность, используя такие методы, как оценки коэффициента инфляции дисперсии (VIF), но в машинном обучении вместо этого мы используем регуляризацию для выбора признаков и, похоже, не проверяем, коррелированы ли функции вообще....

32
Не будут ли сильно коррелированные переменные в случайном лесу искажать точность и выбор характеристик?

В моем понимании, сильно коррелированные переменные не будут вызывать проблемы мультиколлинеарности в модели случайного леса (пожалуйста, исправьте меня, если я ошибаюсь). Однако, с другой стороны, если у меня будет слишком много переменных, содержащих аналогичную информацию, будет ли модель...

30
Какая разница инфляции фактор я должен использовать:

Я пытаюсь интерпретировать дисперсии коэффициентов инфляции с использованием vifфункции в пакете R car. Функция печатает как обобщенный и . Согласно файлу справки , это последнее значениеVIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} Чтобы настроить размер доверительного...

28
Как бороться с мультиколлинеарностью при выборе переменных?

У меня есть набор данных с 9 непрерывными независимыми переменными. Я пытаюсь выбрать среди этих переменных, чтобы подогнать модель к одной процентной (зависимой) переменной Score. К сожалению, я знаю, что между несколькими переменными будет серьезная коллинеарность. Я пытался использовать...

27
Как определить разницу между линейной и нелинейной регрессионными моделями?

Я читал следующую ссылку на нелинейную регрессию SAS Non Linear . Из первого раздела «Нелинейная регрессия и линейная регрессия» я понял, что приведенное ниже уравнение на самом деле является линейной регрессией, верно? Если так, то почему? Y= б1Икс3+ б2Икс2+ б3х + сy=b1x3+b2x2+b3x+cy = b_1x^3 +...

26
Как проверить и избежать мультиколлинеарности в смешанной линейной модели?

В настоящее время я использую линейные модели со смешанным эффектом. Я использую пакет "lme4" в R. Мои модели принимают форму: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) Перед запуском моих моделей я проверил возможную мультиколлинеарность между предикторами. Я...

26
Диагностика коллинеарности проблематична только тогда, когда включен термин взаимодействия

Я провел регрессию по округам США и проверяю коллинеарность в моих «независимых» переменных. Belsley, Kuh и Welsch's Regression Diagnostics предлагают взглянуть на Пропорции индекса состояния и дисперсии дисперсии: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition...

25
Является ли PCA нестабильным при мультиколлинеарности?

Я знаю, что в ситуации регрессии, если у вас есть набор сильно коррелированных переменных, это обычно «плохо» из-за нестабильности оценочных коэффициентов (дисперсия движется к бесконечности, так как детерминант движется к нулю). Мой вопрос заключается в том, сохраняется ли эта «плохость» в...

22
Есть ли причина предпочитать конкретную меру мультиколлинеарности?

При работе со многими входными переменными нас часто беспокоит мультиколлинеарность . Существует ряд мер мультиколлинеарности, которые используются для обнаружения, анализа и / или передачи мультиколлинеарности. Некоторые общие рекомендации: Кратный для конкретной переменной р2JрJ2R^2_j Допуск, ,...

18
Как систематически удалять коллинеарные переменные в Python? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . До сих пор я удалял коллинеарные переменные как часть процесса подготовки данных, просматривая...

18
Как бороться с высокой корреляцией среди предикторов при множественной регрессии?

Я нашел ссылку в статье, которая выглядит так: Согласно Tabachnick & Fidell (1996), независимые переменные с двумерной корреляцией более 0,70 не должны включаться в множественный регрессионный анализ. Проблема: я использовал в дизайне множественной регрессии 3 переменные, коррелированные>...

17
Качественное кодирование переменных в регрессии приводит к «особенностям»

У меня есть независимая переменная под названием «качество»; эта переменная имеет 3 способа реагирования (плохое качество; среднее качество; высокое качество). Я хочу ввести эту независимую переменную в мою множественную линейную регрессию. Когда у меня есть двоичная независимая переменная...

16
Когда мы можем говорить о коллинеарности

В линейных моделях нам нужно проверить, существует ли связь между объясняющими переменными. Если они слишком сильно коррелируют, то возникает коллинеарность (то есть переменные частично объясняют друг друга). В настоящее время я просто смотрю на попарную корреляцию между каждой из объясняющих...

16
Логистическая регрессия - проблемы мультиколлинеарности / ловушки

В Логистической регрессии, нужно ли заботиться о мультиколлинеарности так же, как если бы вы были в прямой регрессии МНК? Например, в случае логистической регрессии, когда существует мультиколлинеарность, нужно ли вам быть осторожным (как в случае регрессии МНК) с выводом из бета-коэффициентов? Для...

15
VIF, индекс состояния и собственные значения

В настоящее время я оцениваю мультиколлинеарность в моих наборах данных. Какие пороговые значения VIF и индекса состояния ниже / выше указывают на проблему? VIF: я слышал, что VIF является проблемой.≥ 10≥10\geq 10 После удаления двух проблемных переменных VIF равен для каждой переменной. Нужно ли...