Как использовать анализ главных компонентов для выбора переменных для регрессии?

12

В настоящее время я использую анализ основных компонентов, чтобы выбрать переменные для моделирования. В настоящий момент я делаю измерения A, B и C в своих экспериментах. Что я действительно хочу знать: могу ли я сделать меньше измерений и прекратить запись C и / B, чтобы сэкономить время и усилия?

Я обнаружил, что все 3 переменные сильно загружены в мой первый основной компонент, который составляет 60% дисперсии в моих данных. Оценки компонентов говорят мне, что если я добавлю эти переменные вместе в определенном соотношении (aA + bB + cC). Я могу получить оценку на ПК1 для каждого случая в моем наборе данных и могу использовать эту оценку как переменную в моделировании, но это не позволяет мне прекратить измерять В и С.

Если я возведу в квадрат нагрузки A, B и C на ПК1, я обнаружу, что переменная A составляет 65% дисперсии в PC1, а переменная B - 50% дисперсии в PC1, а переменная C также составляет 50%, т.е. дисперсии в PC1, приходящейся на каждую переменную A, B и C делится с другой переменной, но A выходит на первое место с учетом чуть большего.

Неправильно ли думать, что я мог бы просто выбрать переменную A или, возможно, (aA + bB, если необходимо) для использования в моделировании, потому что эта переменная описывает большую долю дисперсии в PC1, а это, в свою очередь, описывает большую долю дисперсии в данные?

Какой подход вы использовали в прошлом?

  • Единственная переменная, которая наиболее сильно загружается на ПК1, даже если есть другие тяжелые загрузчики?
  • Оценка компонентов на ПК1 с использованием всех переменных, даже если они являются тяжелыми загрузчиками?
N26
источник

Ответы:

14

Вы не указали, какое «моделирование» вы планируете, но звучит так, будто вы спрашиваете, как выбрать независимые переменные среди , и с целью (скажем) регрессии четвертой зависимой переменной на них.ABCW

Чтобы увидеть, что этот подход может пойти не так, рассмотрим три независимые нормально распределенные переменные , и с единичной дисперсией. Для истинной базовой модели выберите небольшую константу , действительно крошечную константу , и пусть (зависимая переменная) (плюс небольшая ошибка, независимая от , , и ).XYZβ1ϵβW=ZXYZ

Предположим , что независимые переменные , которые имеют в , и . Тогда и сильно коррелированы ( в зависимости от дисперсии ошибки), потому что каждый из них близка к кратной . Тем не менее, некоррелировано с любым из или . Поскольку мала, первый главный компонент для параллелен с собственным значением . и сильно нагружают этот компонент иB = X - ϵ Y C = β Z W C Z W AA=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}X2βABCзагружается совсем не потому, что не зависит от (и ). Тем не менее, если вы исключите из независимых переменных, оставив только и , вы выбросите всю информацию о зависимой переменной, потому что , и независимы!XYCABWAB

Этот пример показывает, что для регрессии вы хотите обратить внимание на то, как независимые переменные коррелируют с зависимой; Вы не можете уйти, просто анализируя отношения между независимыми переменными.

Whuber
источник
1
должно ли это быть не ? Z + ϵ YA=X+ϵYZ+ϵY
Шаббычеф
@shabby Да, спасибо. (Мне пришлось изменить все имена переменных в черновике, чтобы они совпадали с именами OP, и испортил это.)
whuber
4

Если у вас есть только 3 IV, почему вы хотите уменьшить их?

То есть, ваша выборка очень мала (так что 3 IVs рискуют перенастроить)? В этом случае рассмотрим частичные наименьшие квадраты

Или измерения очень дорогие (так что в будущем вы хотели бы измерить только один IV)? В этом случае я хотел бы рассмотреть различные регрессии с каждым IV отдельно и вместе.

Или кто-то в вашем прошлом переоценил ценность скупости? В этом случае, почему бы не включить все 3 IV?

Питер Флом - Восстановить Монику
источник