Каковы хорошие показатели для оценки качества соответствия PCA, чтобы выбрать количество компонентов?

10

Что является хорошим показателем для оценки качества анализа главных компонентов (PCA)?

Я выполнил этот алгоритм на наборе данных. Моей целью было уменьшить количество функций (информация была очень избыточной). Я знаю, что процент сохраняемой дисперсии является хорошим показателем того, сколько информации мы храним, есть ли другие информационные метрики, которые я могу использовать, чтобы убедиться, что я удалил избыточную информацию и не «потерял» такую ​​информацию?

большое дерево
источник
3
Строго говоря, нет никакой «избыточной» информации, если только ваши исходные данные не были совершенно коллинеарны. Обычно видно процент сохраняющейся дисперсии («мы использовали первые пять основных компонентов, которые составляли 90% дисперсии»). Мне интересно видеть альтернативы.
Стефан Коласса
Поскольку один из ваших тегов является теорией информации: косвенный способ оценки того, работает ли PCA, состоит в проверке допущений, согласно которым теория информации говорит нам, что у него низкая потеря информации при данном уменьшении размера. Вики говорят, что это так, когда ваши данные представляют собой сумму гауссовского сигнала плюс гауссов шум. en.wikipedia.org/wiki/…
CloseToC

Ответы:

17

Я предполагаю, что часть этого вопроса заключается в том, существуют ли другие метрики, кроме кумулятивной процентной дисперсии (CPV) и аналогичного подхода к осыпному графику. Ответ на это, да, многие .

Отличная статья о некоторых опциях - Valle 1999:

Это касается как CPV, так и параллельного анализа, перекрестной проверки, дисперсии ошибки восстановления (VRE), методов, основанных на информационных критериях, и многого другого. Вы можете следовать рекомендациям, сделанным в статье после сравнения и использования VRE, но перекрестная проверка на основе PRESS также хорошо работает по моему опыту, и они также дают хорошие результаты. По моему опыту, CPV удобен и прост, и делает достойную работу, но эти два метода обычно лучше.

Есть и другие способы оценить, насколько хороша ваша модель PCA, если вы знаете больше о данных. Одним из способов является сравнение предполагаемых нагрузок PCA с истинными, если вы их знаете (что вы и сделали бы при моделировании). Это можно сделать, рассчитав смещение предполагаемых нагрузок к истинным. Чем больше ваш уклон, тем хуже ваша модель. Чтобы узнать, как это сделать, вы можете обратиться к этой статье, где они используют этот подход для сравнения методов. Однако его нельзя использовать в реальных случаях, когда вы не знаете истинных загрузок PCA. Это говорит не столько о том, сколько компонентов вы удалили, сколько о смещении вашей модели из-за влияния отдаленных наблюдений, но все же служит метрикой качества модели.

Deathkill14
источник
4
Ссылка на бумагу Валле, Ли и Цинь
Жубарб,
3

Есть также меры, основанные на теоретико-информационных критериях, как

MDL Риссанена (и варианты)

Никос М.
источник
@user: 45382 Да, это еще один. Об этом также говорится в статье, на которую ссылается Жубарб.
Deathkill14
@ Deathkill14 правильно я прочитал статью, упомянуты теоретико-информационные меры (на самом деле, как хорошие альтернативы)
Никос М.
Отличная теоретическая статья о MDL, MML и байесианстве: Витани и Ли, идеальный MDL и его связь с байесианством citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . Также другие методы выбора модели, такие как AIC и BIC, являются эффективной реализацией MDL.
GGLL