Можно ли использовать множественную регрессию для прогнозирования одного главного компонента (ПК) от нескольких других ПК?

15

Некоторое время назад пользователь из списка рассылки R-help спросил о целесообразности использования оценок PCA в регрессии. Пользователь пытается использовать некоторые оценки ПК для объяснения изменений на другом ПК (см. Полное обсуждение здесь ). Ответ был таков: нет, это не так, потому что компьютеры ортогональны друг другу.

Может кто-нибудь объяснить немного подробнее, почему это так?

Роман Луштрик
источник
1
Почему вы поставили rтег и что вы подразумеваете под «почему это так»? ПК не коррелированы, то есть они ортогональны, аддитивны, вы не можете предсказать один ПК с другим. Вы ищете формулу?
aL3xa
Мне было интересно узнать о принципах, лежащих в основе логики (в моем стремлении понять PCA). Я использовал R tag, потому что R люди могли бы прочитать это и, возможно, показать R примеров. :)
Роман Луштрик
О, почему ты так не сказал? Вы видели statmethods.net/advstats/factor.html
aL3xa
Это немного не по теме, но вот некоторые полезные сведения о PCA (в основном на R): <b> HTML </ b> statsoft.com/textbook/principal-components-factor-analysis/… <br /> . okstate.edu/PCA.htm <br /> astrostatistics.psu.edu/datasets/R/MV.html <br /> statmethods.net/advstats/factor.html <br /> <hr /> <b> PDF < / b> cran.r-project.org/web/packages/HSAUR/vignettes/… /> uga.edu/strata/software/pdf/pcaTutorial.pdf <br /> cs.otago.ac.nz/cosc453/student_tutorials / ... /> WWW
aL3xa

Ответы:

11

Основным компонентом является взвешенная линейная комбинация всех ваших факторов (X).

Пример: PC1 = 0,1X1 + 0,3X2

Для каждого фактора будет один компонент (хотя обычно выбирается небольшое количество).

Компоненты созданы так, что они имеют нулевую корреляцию (являются ортогональными), в соответствии с дизайном.

Следовательно, компонент PC1 не должен объяснять какие-либо различия в компоненте PC2.

Возможно, вы захотите сделать регрессию для вашей переменной Y и представления ваших значений X в PCA, поскольку они не будут иметь мультиколлинеарность. Однако это может быть трудно интерпретировать.

Если у вас больше X, чем наблюдений, что нарушает OLS, вы можете регрессировать на свои компоненты и просто выбрать меньшее количество компонентов с наибольшим отклонением.

Анализ основных компонентов Джоллиф - очень глубокая и цитируемая книга на эту тему

Это тоже хорошо: http://www.statsoft.com/textbook/principal-components-factor-analysis/

Нил Макгиган
источник
11

Основные компоненты по определению ортогональны, поэтому любая пара ПК будет иметь нулевую корреляцию.

Тем не менее, PCA может использоваться в регрессии, если имеется большое количество объясняющих переменных. Их можно сократить до небольшого числа главных компонентов и использовать в качестве предикторов в регрессии.

Роб Хиндман
источник
Разве это не было бы Ф.А.
Роман Луштрик
3
ФА не регресс. Я имею в виду переменную ответа, регрессированную по отношению к основным компонентам, вычисленным из большого числа объясняющих переменных. Сами основные компоненты тесно связаны с факторами ФА.
Роб Хиндман
Извините, я должен был быть более точным в своем комментарии. Ваше письмо о том, что объяснительные переменные могут быть сведены к небольшому количеству ПК, прозвучало мне как «факторный анализ».
Роман Луштрик
В наборе с n переменными можно извлечь n ПК, но вы можете решить, сколько вы хотите сохранить, например, критерий Гутмана-Кайзера гласит: оставьте все ПК с собственным значением (дисперсией) больше 1. Так что .. .
aL3xa
7

Осторожно ... только то, что ПК по своей конструкции ортогональны друг другу, не означает, что здесь нет шаблона или что один ПК не может «объяснить» что-то о других ПК.

Рассмотрим трехмерные данные (X, Y, Z), описывающие большое количество точек, равномерно распределенных по поверхности американского футбола (это эллипсоид, а не сфера для тех, кто никогда не смотрел американский футбол). Представьте, что футбол находится в произвольной конфигурации, так что ни X, ни Y, ни Z не находятся вдоль длинной оси футбола.

Главные компоненты разместят PC1 вдоль длинной оси футбола, оси, которая описывает наибольшую дисперсию в данных.

Для любой точки в измерении PC1 вдоль длинной оси футбола плоский срез, представленный PC2 и PC3, должен описывать окружность, а радиус этого кругового среза зависит от размера PC1. Это правда, что регрессия ПК2 или ПК3 на ПК1 должна давать нулевой коэффициент в глобальном масштабе, но не на меньших участках футбола ... и ясно, что 2D-график ПК1 и ПК2 будет показывать "интересную" ограничивающую границу это двухзначное, нелинейное и симметричное.

Павел
источник
3

Если ваши данные имеют большой размер и шум, и у вас нет большого количества выборок, вы рискуете получить слишком много. В таких случаях имеет смысл использовать PCA (который может захватить доминирующую часть дисперсии данных; ортогональность не является проблемой) или факторный анализ (который может найти истинные объясняющие переменные, лежащие в основе данных), чтобы уменьшить размерность данных, а затем тренировать регрессионную модель с ними.

Подходы, основанные на факторном анализе, см. В этой статье Модель регрессии Байесовского фактора и непараметрическую версию Байесовской модели , в которой не предполагается, что вы априори знаете «истинное» количество релевантных факторов (или основных компонентов в случае PCA).

Я бы добавил, что во многих случаях контролируемое уменьшение размерности (например, дискриминантный анализ Фишера ) может дать улучшения по сравнению с простыми подходами, основанными на PCA или FA, потому что вы можете использовать информацию метки при выполнении уменьшения размерности.

ebony1
источник
0

Вы можете получить его, если прогнозируемая оценка ПК была получена из других переменных или случаев, чем оценки ПК-предиктора. если это предсказанный случай и предиктор не будет ортогональным, или, по крайней мере, им не нужно, корреляция, конечно, не гарантируется.

Томас Бонкомпт
источник