Является ли PCA нестабильным при мультиколлинеарности?

25

Я знаю, что в ситуации регрессии, если у вас есть набор сильно коррелированных переменных, это обычно «плохо» из-за нестабильности оценочных коэффициентов (дисперсия движется к бесконечности, так как детерминант движется к нулю).

Мой вопрос заключается в том, сохраняется ли эта «плохость» в ситуации PCA. Не становятся ли коэффициенты / нагрузки / веса / собственные векторы для любого конкретного ПК нестабильными / произвольными / неуникальными, когда ковариационная матрица становится сингулярной? Меня особенно интересует случай, когда сохраняется только первый главный компонент, а все остальные отклоняются как «шум», «что-то еще» или «неважно».

Я не думаю, что это так, потому что у вас останется несколько основных компонентов, которые имеют нулевую или близкую к нулю дисперсию.

Легко видеть, что это не так в простом крайнем случае с 2 переменными - предположим, что они идеально коррелируют. Тогда первый ПК будет иметь точную линейную зависимость, а второй ПК будет перпендикулярен первому ПК, при этом все значения ПК равны нулю для всех наблюдений (т. Е. Нулевая дисперсия). Интересно, если это более общее.

probabilityislogic
источник
8
Твои рассуждения хороши. На самом деле можно ожидать нестабильности, когда два или более собственных значения почти совпадают, поскольку тогда, хотя собственные значения определены, собственные векторы не являются, и, следовательно, не являются нагрузками. По численным причинам существует также нестабильность в собственных значениях (и собственных векторах), которые очень малы по размеру по сравнению с максимальным собственным значением.
whuber
@whuber comment отвечает на ваш вопрос, но я хотел бы отметить, что в случае двух идеально коррелированных переменных у PCA не должно быть никаких проблем. Ковариационная матрица будет иметь ранг 1, поэтому будет только 1 ненулевое собственное значение, следовательно, только 1 ПК. Исходные переменные будут кратны этому компьютеру. Единственной проблемой может быть численная стабильность.
mpiktas
На самом деле, я думаю, что вам было бы хуже, если бы у вас были умеренно коррелированные переменные, чем когда у вас действительно очень коррелированные переменные. Численно также, если вы используете алгоритм, подобный NIPALS, который удаляет ПК по порядку
JMS
Одно - «сильно коррелированные» и «коллинеарные» - это не одно и то же. Если задействовано более двух переменных, коллинеарность не подразумевает корреляцию.
Питер Флом - Восстановить Монику

Ответы:

11

Ответ может быть дан даже в более простых терминах: множественная регрессия на один шаг больше, чем pca, если рассматривать ее в терминах линейной алгебры, и на втором этапе возникает нестабильность:

рLLT

L
L

Готфрид Хелмс
источник
Это примерно то, что я искал. На самом деле, прочитав ваш ответ, я вспоминаю другое объяснение: вращения численно устойчивы, независимо от детерминанта ковариационной / корреляционной матрицы. А поскольку PCA может быть определена как находящая лучшее вращение оси координат, она также будет численно устойчивой.
вероятностная
Да, например, в «основах факторанализа» Стана Мулайка стабильность вращения ПК (метод Якоби) была явно упомянута, если я правильно помню источник. В моей собственной реализации факторного анализа я делаю все после холестерического поворота: PCA, Varimax, даже «факторинг по главной оси» (PAF в SPSS) можно перестраивать на основе поворотов. Если множественная регрессия основана на коэффициенте Холески L, а часть L, которая содержит независимые переменные, находится в положении ПК, тогда мультиколлинеарность можно даже лучше контролировать.
Готфрид Хелмс
3

PCA часто является средством для достижения цели; приведение либо к входным данным для множественной регрессии, либо для использования в кластерном анализе. Я думаю, что в вашем случае вы говорите об использовании результатов PCA для выполнения регрессии.

В этом случае ваша цель выполнения PCA состоит в том, чтобы избавиться от мультиколлинеарности и получить ортогональные входные данные для множественной регрессии, что неудивительно, что это называется регрессией главных компонентов. Здесь, если бы все ваши исходные входы были ортогональными, тогда выполнение PCA дало бы вам другой набор ортогональных входов. Следовательно; если вы делаете PCA, можно предположить, что ваши входы имеют мультиколлинеарность.

λя^яTчасλя^п

Ссылки

Johnson & Wichern (2001). Прикладной многомерный статистический анализ (6-е издание). Прентис Холл.

Скенектади.Особенности
источник
6
Я не уверен, что ОП после ПЦР. PCA также является хорошим способом для суммирования многомерных наборов данных (необязательно для выполнения сокращения данных для последующего использования в среде моделирования), который приближает матрицу VC к младшему, сохраняя при этом большую часть информации. Кажется, возникает вопрос: прав ли я, интерпретируя первые несколько собственных значений и ПК (как линейные комбинации исходных переменных), даже если были некоторые эффекты коллинеарности? Похоже, ваш ответ не касается непосредственно вопроса ОП.
ЧЛ
2
хороший ответ о PCA в целом, но как насчет того, когда PCA станет конечным продуктом ? То есть цель - вывести один ПК. @Chl это право на деньги с его толкованием вопроса
probabilityislogic
@chl Каков ваш ответ на вопрос: «Прав ли я, интерпретируя первые несколько собственных значений и ПК, даже если были некоторые эффекты коллинеарности?» Я спрашиваю, потому что я пытаюсь выяснить, когда стоит сохранить высоко коррелированные переменные при уменьшении размерности. Иногда, когда мы знаем из теории, что две переменные управляются одними и теми же скрытыми переменными, тогда вам следует удалить одну из переменных, чтобы не учитывать влияние скрытой переменной дважды. Я пытаюсь продумать, когда все в порядке, чтобы сохранить коррелированные переменные.
Amatya