Обычно в анализе главных компонентов (PCA) используются первые несколько ПК, а ПК с низкой дисперсией отбрасываются, поскольку они не объясняют большую часть различий в данных.
Тем не менее, есть ли примеры, когда ПК с малой вариацией полезны (то есть используются в контексте данных, имеют интуитивное объяснение и т. Д.) И их не следует выбрасывать?
Ответы:
Вот классная выдержка из Jolliffe (1982), которую я не включил в свой предыдущий ответ на очень похожий вопрос: « Компоненты с низкой дисперсией в PCA, действительно ли они просто шум? Есть ли способ проверить это? » это довольно интуитивно понятно.
Три примера из литературы, упомянутой в последнем предложении второго абзаца, были тремя, которые я упомянул в своем ответе на связанный вопрос .
Ссылка
Jolliffe, IT (1982). Обратите внимание на использование основных компонентов в регрессии. Прикладная статистика, 31 (3), 300–303. Получено с http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
источник
Если у вас есть R, есть хороший пример
crabs
данных в пакете MASS.Более 98% дисперсии «объясняются» первыми двумя ПК, но на самом деле, если вы действительно собрали эти измерения и изучали их, третий ПК очень интересен, потому что он тесно связан с видами краба. Но это затоплено PC1 (который, кажется, соответствует размеру краба) и PC2 (который, кажется, соответствует полу краба.)
источник
Вот два примера из моего опыта (хемометрика, оптическая / вибрационная / рамановская спектроскопия):
Недавно у меня были данные оптической спектроскопии, где> 99% от общей дисперсии исходных данных было связано с изменениями фонового освещения (прожектор более или менее интенсивен в измеряемой точке, люминесцентные лампы включались / выключались, более или менее облачно перед солнце). После коррекции фона с помощью оптических спектров известных влияющих факторов (извлеченных PCA по необработанным данным; дополнительные измерения, проведенные для того, чтобы охватить эти изменения), интересующий нас эффект проявился в ПК 4 и 5.
ПК 1 и 3, где из-за других эффектов в измеряемом образце, и ПК 2 коррелирует с нагревом наконечника прибора во время измерений.
В другом измерении использовалась линза без коррекции цвета для измеренного спектрального диапазона. Хроматическая аберрация приводит к искажениям в спектрах, которые составляли ок. 90% от общей дисперсии предварительно обработанных данных (в основном на ПК 1).
Для получения этих данных нам потребовалось много времени, чтобы понять, что именно произошло, но переход к лучшей цели решил проблему для последующих экспериментов.
(Я не могу показать детали, так как эти исследования все еще не опубликованы)
источник
Я заметил, что ПК с низкой дисперсией наиболее полезны при выполнении PCA на ковариационной матрице, где лежащие в основе данные группируются или группируются каким-либо образом. Если одна из групп имеет значительно более низкую среднюю дисперсию, чем другие группы, то в этой группе преобладают самые маленькие ПК. Тем не менее, у вас может быть причина не желать отбрасывать результаты из этой группы.
В финансах доходность акций составляет около 15-25% годового стандартного отклонения. Изменения доходности облигаций исторически значительно ниже стандартного отклонения. Если вы выполняете PCA на ковариационной матрице доходности акций и изменений доходности облигаций, тогда все верхние ПК будут отражать дисперсию акций, а самые маленькие будут отражать дисперсию облигаций. Если вы выбросите компьютеры, которые объясняют связи, то у вас могут возникнуть некоторые проблемы. Например, у облигаций могут быть очень разные характеристики распределения, чем у акций (более тонкие хвосты, различные изменяющиеся во времени свойства дисперсии, различное среднее обращение, коинтеграция и т. Д.). Это может быть очень важно для моделирования, в зависимости от обстоятельств.
Если вы выполните PCA на корреляционной матрице, то вы можете увидеть больше компьютеров, объясняющих связи, в верхней части.
источник
В этом выступлении ( слайды ) докладчики обсуждают использование PCA для различения признаков высокой изменчивости и низкой изменчивости.
Они фактически предпочитают признаки низкой изменчивости для обнаружения аномалий, поскольку значительный сдвиг в измерении низкой изменчивости является сильным индикатором аномального поведения. Мотивирующий пример, который они приводят, заключается в следующем:
источник