Некоторое время назад пользователь из списка рассылки R-help спросил о целесообразности использования оценок PCA в регрессии. Пользователь пытается использовать некоторые оценки ПК для объяснения изменений на другом ПК (см. Полное обсуждение здесь ). Ответ был таков: нет, это не так, потому что компьютеры ортогональны друг другу.
Может кто-нибудь объяснить немного подробнее, почему это так?
regression
pca
Роман Луштрик
источник
источник
r
тег и что вы подразумеваете под «почему это так»? ПК не коррелированы, то есть они ортогональны, аддитивны, вы не можете предсказать один ПК с другим. Вы ищете формулу?Ответы:
Основным компонентом является взвешенная линейная комбинация всех ваших факторов (X).
Пример: PC1 = 0,1X1 + 0,3X2
Для каждого фактора будет один компонент (хотя обычно выбирается небольшое количество).
Компоненты созданы так, что они имеют нулевую корреляцию (являются ортогональными), в соответствии с дизайном.
Следовательно, компонент PC1 не должен объяснять какие-либо различия в компоненте PC2.
Возможно, вы захотите сделать регрессию для вашей переменной Y и представления ваших значений X в PCA, поскольку они не будут иметь мультиколлинеарность. Однако это может быть трудно интерпретировать.
Если у вас больше X, чем наблюдений, что нарушает OLS, вы можете регрессировать на свои компоненты и просто выбрать меньшее количество компонентов с наибольшим отклонением.
Анализ основных компонентов Джоллиф - очень глубокая и цитируемая книга на эту тему
Это тоже хорошо: http://www.statsoft.com/textbook/principal-components-factor-analysis/
источник
Основные компоненты по определению ортогональны, поэтому любая пара ПК будет иметь нулевую корреляцию.
Тем не менее, PCA может использоваться в регрессии, если имеется большое количество объясняющих переменных. Их можно сократить до небольшого числа главных компонентов и использовать в качестве предикторов в регрессии.
источник
Осторожно ... только то, что ПК по своей конструкции ортогональны друг другу, не означает, что здесь нет шаблона или что один ПК не может «объяснить» что-то о других ПК.
Рассмотрим трехмерные данные (X, Y, Z), описывающие большое количество точек, равномерно распределенных по поверхности американского футбола (это эллипсоид, а не сфера для тех, кто никогда не смотрел американский футбол). Представьте, что футбол находится в произвольной конфигурации, так что ни X, ни Y, ни Z не находятся вдоль длинной оси футбола.
Главные компоненты разместят PC1 вдоль длинной оси футбола, оси, которая описывает наибольшую дисперсию в данных.
Для любой точки в измерении PC1 вдоль длинной оси футбола плоский срез, представленный PC2 и PC3, должен описывать окружность, а радиус этого кругового среза зависит от размера PC1. Это правда, что регрессия ПК2 или ПК3 на ПК1 должна давать нулевой коэффициент в глобальном масштабе, но не на меньших участках футбола ... и ясно, что 2D-график ПК1 и ПК2 будет показывать "интересную" ограничивающую границу это двухзначное, нелинейное и симметричное.
источник
Если ваши данные имеют большой размер и шум, и у вас нет большого количества выборок, вы рискуете получить слишком много. В таких случаях имеет смысл использовать PCA (который может захватить доминирующую часть дисперсии данных; ортогональность не является проблемой) или факторный анализ (который может найти истинные объясняющие переменные, лежащие в основе данных), чтобы уменьшить размерность данных, а затем тренировать регрессионную модель с ними.
Подходы, основанные на факторном анализе, см. В этой статье Модель регрессии Байесовского фактора и непараметрическую версию Байесовской модели , в которой не предполагается, что вы априори знаете «истинное» количество релевантных факторов (или основных компонентов в случае PCA).
Я бы добавил, что во многих случаях контролируемое уменьшение размерности (например, дискриминантный анализ Фишера ) может дать улучшения по сравнению с простыми подходами, основанными на PCA или FA, потому что вы можете использовать информацию метки при выполнении уменьшения размерности.
источник
Вы можете получить его, если прогнозируемая оценка ПК была получена из других переменных или случаев, чем оценки ПК-предиктора. если это предсказанный случай и предиктор не будет ортогональным, или, по крайней мере, им не нужно, корреляция, конечно, не гарантируется.
источник