Что является хорошим показателем для оценки качества анализа главных компонентов (PCA)?
Я выполнил этот алгоритм на наборе данных. Моей целью было уменьшить количество функций (информация была очень избыточной). Я знаю, что процент сохраняемой дисперсии является хорошим показателем того, сколько информации мы храним, есть ли другие информационные метрики, которые я могу использовать, чтобы убедиться, что я удалил избыточную информацию и не «потерял» такую информацию?
machine-learning
pca
data-mining
information-theory
большое дерево
источник
источник
Ответы:
Я предполагаю, что часть этого вопроса заключается в том, существуют ли другие метрики, кроме кумулятивной процентной дисперсии (CPV) и аналогичного подхода к осыпному графику. Ответ на это, да, многие .
Отличная статья о некоторых опциях - Valle 1999:
Выбор количества основных компонентов: дисперсия критерия ошибки реконструкции и сравнение с другими методами
Серхио Валле, Вейхуа Ли, и С. Джо Цинь, Исследования в области промышленной и технической химии, 1999 г. 38 (11), 4389-4401
Это касается как CPV, так и параллельного анализа, перекрестной проверки, дисперсии ошибки восстановления (VRE), методов, основанных на информационных критериях, и многого другого. Вы можете следовать рекомендациям, сделанным в статье после сравнения и использования VRE, но перекрестная проверка на основе PRESS также хорошо работает по моему опыту, и они также дают хорошие результаты. По моему опыту, CPV удобен и прост, и делает достойную работу, но эти два метода обычно лучше.
Есть и другие способы оценить, насколько хороша ваша модель PCA, если вы знаете больше о данных. Одним из способов является сравнение предполагаемых нагрузок PCA с истинными, если вы их знаете (что вы и сделали бы при моделировании). Это можно сделать, рассчитав смещение предполагаемых нагрузок к истинным. Чем больше ваш уклон, тем хуже ваша модель. Чтобы узнать, как это сделать, вы можете обратиться к этой статье, где они используют этот подход для сравнения методов. Однако его нельзя использовать в реальных случаях, когда вы не знаете истинных загрузок PCA. Это говорит не столько о том, сколько компонентов вы удалили, сколько о смещении вашей модели из-за влияния отдаленных наблюдений, но все же служит метрикой качества модели.
источник
Есть также меры, основанные на теоретико-информационных критериях, как
MDL Риссанена (и варианты)
источник