Я знаю, что в ситуации регрессии, если у вас есть набор сильно коррелированных переменных, это обычно «плохо» из-за нестабильности оценочных коэффициентов (дисперсия движется к бесконечности, так как детерминант движется к нулю).
Мой вопрос заключается в том, сохраняется ли эта «плохость» в ситуации PCA. Не становятся ли коэффициенты / нагрузки / веса / собственные векторы для любого конкретного ПК нестабильными / произвольными / неуникальными, когда ковариационная матрица становится сингулярной? Меня особенно интересует случай, когда сохраняется только первый главный компонент, а все остальные отклоняются как «шум», «что-то еще» или «неважно».
Я не думаю, что это так, потому что у вас останется несколько основных компонентов, которые имеют нулевую или близкую к нулю дисперсию.
Легко видеть, что это не так в простом крайнем случае с 2 переменными - предположим, что они идеально коррелируют. Тогда первый ПК будет иметь точную линейную зависимость, а второй ПК будет перпендикулярен первому ПК, при этом все значения ПК равны нулю для всех наблюдений (т. Е. Нулевая дисперсия). Интересно, если это более общее.
источник
Ответы:
Ответ может быть дан даже в более простых терминах: множественная регрессия на один шаг больше, чем pca, если рассматривать ее в терминах линейной алгебры, и на втором этапе возникает нестабильность:
источник
PCA часто является средством для достижения цели; приведение либо к входным данным для множественной регрессии, либо для использования в кластерном анализе. Я думаю, что в вашем случае вы говорите об использовании результатов PCA для выполнения регрессии.
В этом случае ваша цель выполнения PCA состоит в том, чтобы избавиться от мультиколлинеарности и получить ортогональные входные данные для множественной регрессии, что неудивительно, что это называется регрессией главных компонентов. Здесь, если бы все ваши исходные входы были ортогональными, тогда выполнение PCA дало бы вам другой набор ортогональных входов. Следовательно; если вы делаете PCA, можно предположить, что ваши входы имеют мультиколлинеарность.
Ссылки
Johnson & Wichern (2001). Прикладной многомерный статистический анализ (6-е издание). Прентис Холл.
источник