Примеры PCA, где ПК с низкой дисперсией «полезны»

24

Обычно в анализе главных компонентов (PCA) используются первые несколько ПК, а ПК с низкой дисперсией отбрасываются, поскольку они не объясняют большую часть различий в данных.

Тем не менее, есть ли примеры, когда ПК с малой вариацией полезны (то есть используются в контексте данных, имеют интуитивное объяснение и т. Д.) И их не следует выбрасывать?

Майкл
источник
5
Довольно много. Видите PCA, случайность компонента? Это может даже быть дубликат, но ваш заголовок намного понятнее (следовательно, его легче найти при поиске), поэтому, пожалуйста, не удаляйте его, даже если он закрывается как таковой.
Ник Стаунер

Ответы:

18

Вот классная выдержка из Jolliffe (1982), которую я не включил в свой предыдущий ответ на очень похожий вопрос: « Компоненты с низкой дисперсией в PCA, действительно ли они просто шум? Есть ли способ проверить это? » это довольно интуитивно понятно.

Предположим, что требуется прогнозировать высоту нижней границы облака , что является важной проблемой в аэропортах. Измеряются различные климатические переменные, включая температуру поверхности и росы на поверхности . Здесь - это температура, при которой воздух на поверхности будет насыщаться водяным паром, а разность - это мера поверхностной влажности. Теперь как правило, имеют положительную корреляцию, поэтому анализ главных компонентов климатических переменных будет иметь компонент с высокой дисперсией, который сильно коррелирует с , и компонент с низкой дисперсией, который аналогично коррелируется сT s T d T d T s - T d T s , T d T s + T d T s - T d H T s - T d HЧАСTsTdTdTs-TdTs,TdTs+TdTs-Td, Но связано с влажностью и , следовательно, , т.е. к низкой дисперсией , а не компонент с высокой дисперсией, так что стратегии , которая отклоняет компоненты с низким уровнем дисперсии дают плохие предсказания для . Обсуждение этого примера обязательно расплывчато из-за неизвестных эффектов любых других климатических переменных, которые также измеряются и включаются в анализ. Тем не менее, он показывает физически правдоподобный случай, когда зависимая переменная будет связана с компонентом с низкой дисперсией, подтверждая три эмпирических примера из литературы. ЧАСTs-TdЧАС

Кроме того, пример облачной базы был протестирован на данных из аэропорта Кардиффа (Уэльс) за период 1966–73 гг. С одной дополнительной климатической переменной, включая температуру поверхности моря. Результаты были в основном такими, как предсказано выше. Последний основной компонент составлял приблизительно , и на его долю приходилось только процента от общего отклонения. Тем не менее, в качестве основного компонента регрессии он был самым важным прогностическим фактором для . [Акцент добавлен]HTs-TdЧАС

Три примера из литературы, упомянутой в последнем предложении второго абзаца, были тремя, которые я упомянул в своем ответе на связанный вопрос .


Ссылка
Jolliffe, IT (1982). Обратите внимание на использование основных компонентов в регрессии. Прикладная статистика, 31 (3), 300–303. Получено с http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .

Ник Стаунер
источник
Это действительно круто. Я бы просто добавил примечание, что всегда больше, чем . Это сбило меня с на секунду, когда я понял, почему обязательно является компонентом с «низкой дисперсией»В(A+В)знак равноВ(A)+В(В)+2Соv(A,В)В(A-В)знак равноВ(A)+В(В)-2Соv(A,В)Ts-Td
shadowtalker
+1, это хороший пример. Интересно, что это также пример подавления.
gung - Восстановить Монику
17

Если у вас есть R, есть хороший пример crabsданных в пакете MASS.

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

Более 98% дисперсии «объясняются» первыми двумя ПК, но на самом деле, если вы действительно собрали эти измерения и изучали их, третий ПК очень интересен, потому что он тесно связан с видами краба. Но это затоплено PC1 (который, кажется, соответствует размеру краба) и PC2 (который, кажется, соответствует полу краба.)

введите описание изображения здесь

введите описание изображения здесь

Flounderer
источник
2
+1, это действительно аккуратная демонстрация. Я сделал 2 матрицы рассеяния, которые можно добавить, если хотите.
gung - Восстановить Монику
1
@ Gung: Спасибо за добавление графиков рассеяния! Я ранее проголосовал за этот ответ, но не полностью оценил его, не увидев сюжетов. Scatterplot PC2 vs PC3 действительно хорош: почти идеальное разделение между полами и видами. Мне нравится этот пример еще и потому, что он иллюстрирует то, что происходит, когда все переменные сильно положительно коррелируют (то есть PC1 объясняет много различий и в основном является средним).
говорит амеба: восстанови Монику
1
Спасибо, @amoeba. Мне очень нравится, как они оказались. Я потратил много времени на фьюзинг с ними (цвета, pch, lables, легенды). Я на самом деле думаю, что они довольно симпатичные сейчас. Вы делаете хорошее замечание о ПК1. Мы также можем видеть, что существует (вероятно) постоянный коэффициент вариации и взаимодействия по полу и / или видам во многих отношениях: маленькие (крошка?) Крабы имеют тенденцию иметь одинаковые значения независимо от пола или вида, но как они растут (возраст?), они становятся более отчетливыми. И т.д. Есть много интересных вещей, чтобы увидеть - вы можете просто продолжать смотреть на них.
gung - Восстановить Монику
8

Вот два примера из моего опыта (хемометрика, оптическая / вибрационная / рамановская спектроскопия):

  • Недавно у меня были данные оптической спектроскопии, где> 99% от общей дисперсии исходных данных было связано с изменениями фонового освещения (прожектор более или менее интенсивен в измеряемой точке, люминесцентные лампы включались / выключались, более или менее облачно перед солнце). После коррекции фона с помощью оптических спектров известных влияющих факторов (извлеченных PCA по необработанным данным; дополнительные измерения, проведенные для того, чтобы охватить эти изменения), интересующий нас эффект проявился в ПК 4 и 5.
    ПК 1 и 3, где из-за других эффектов в измеряемом образце, и ПК 2 коррелирует с нагревом наконечника прибора во время измерений.

  • В другом измерении использовалась линза без коррекции цвета для измеренного спектрального диапазона. Хроматическая аберрация приводит к искажениям в спектрах, которые составляли ок. 90% от общей дисперсии предварительно обработанных данных (в основном на ПК 1).
    Для получения этих данных нам потребовалось много времени, чтобы понять, что именно произошло, но переход к лучшей цели решил проблему для последующих экспериментов.

(Я не могу показать детали, так как эти исследования все еще не опубликованы)

cbeleites поддерживает Монику
источник
3

Я заметил, что ПК с низкой дисперсией наиболее полезны при выполнении PCA на ковариационной матрице, где лежащие в основе данные группируются или группируются каким-либо образом. Если одна из групп имеет значительно более низкую среднюю дисперсию, чем другие группы, то в этой группе преобладают самые маленькие ПК. Тем не менее, у вас может быть причина не желать отбрасывать результаты из этой группы.

В финансах доходность акций составляет около 15-25% годового стандартного отклонения. Изменения доходности облигаций исторически значительно ниже стандартного отклонения. Если вы выполняете PCA на ковариационной матрице доходности акций и изменений доходности облигаций, тогда все верхние ПК будут отражать дисперсию акций, а самые маленькие будут отражать дисперсию облигаций. Если вы выбросите компьютеры, которые объясняют связи, то у вас могут возникнуть некоторые проблемы. Например, у облигаций могут быть очень разные характеристики распределения, чем у акций (более тонкие хвосты, различные изменяющиеся во времени свойства дисперсии, различное среднее обращение, коинтеграция и т. Д.). Это может быть очень важно для моделирования, в зависимости от обстоятельств.

Если вы выполните PCA на корреляционной матрице, то вы можете увидеть больше компьютеров, объясняющих связи, в верхней части.

Джон
источник
Этот ответ очень трудно понять, если не знать, что такое акции, облигации, доходность и доходность. Я не знаю, и поэтому не могу понять, как ваше первое предложение связано со вторым ...
амеба говорит: «Восстановите Монику
1
Я сделал несколько правок.
Джон
1

В этом выступлении ( слайды ) докладчики обсуждают использование PCA для различения признаков высокой изменчивости и низкой изменчивости.

Они фактически предпочитают признаки низкой изменчивости для обнаружения аномалий, поскольку значительный сдвиг в измерении низкой изменчивости является сильным индикатором аномального поведения. Мотивирующий пример, который они приводят, заключается в следующем:

Предположим, что пользователь всегда входит в систему с Mac. Измерение "операционной системы" их деятельности будет очень низким отклонением. Но если бы мы увидели событие входа в систему от того же пользователя, где «операционной системой» была Windows, это было бы очень интересно и кое-что, что мы бы хотели уловить.

turtlemonvh
источник