Я хочу использовать Информационный критерий Акаике (AIC), чтобы выбрать соответствующее количество факторов для извлечения в PCA. Единственная проблема заключается в том, что я не уверен, как определить количество параметров.
Рассмотрим матрицу , где представляет количество переменных, а - количество наблюдений, таких что . Поскольку ковариационная матрица симметрична, то оценка максимального правдоподобия может установить число параметров в AIC равным .X N T X ∼ N ( 0 , Σ ) Σ N ( N + 1 )
С другой стороны , в PCA, вы могли бы извлечь первые собственных векторов и собственных значений , назовем их и , а затем вычислить где - средняя остаточная дисперсия. По моим подсчетам, если у вас есть факторов, то вы бы параметров в , параметров в и параметр в .Е & beta ; F Λ F Е = & beta ; F Λ F & beta ; ' е + я σ 2 г σ 2 г е е Λ е Н е & beta ; F 1 σ 2 г
Правильный ли этот подход? Похоже , что это приведет к большему количеству параметров , чем максимального правдоподобия подхода , поскольку число факторов возрастает до .
источник
Ответы:
Работы Minka ( Автоматический выбор размерности для PCA , 2000) и Tipping & Bishop ( Вероятностный анализ основных компонентов ), касающиеся вероятностного представления о PCA, могут предоставить вам интересующую вас структуру. Работа Минки дает приблизительную оценку вероятность где - скрытая размерность вашего набора данных с использованием приближения Лапласа; как прямо сказано: « Упрощение метода Лапласа - это приближение BIC ».k Dlogp(D|k) k D
Очевидно, это принимает байесовскую точку зрения на вашу проблему, которая не основана на критериях теории информации (KL-расхождение), используемых AIC.
Что касается первоначального вопроса «определение количества параметров», я также думаю, что комментарий @ whuber несет правильную интуицию.
источник
Выбор «подходящего» количества компонентов в PCA можно элегантно выполнить с помощью параллельного анализа Хорна (PA). Документы показывают, что этот критерий последовательно превосходит эмпирические правила, такие как критерий локтя или правило Кайзера. Пакет R "paran" имеет реализацию PA, для которой требуется всего пара щелчков мышью.
Конечно, сколько компонентов вы сохраняете, зависит от целей сокращения данных. Если вы хотите сохранить «значимое» отклонение, PA даст оптимальное сокращение. Однако если вы хотите свести к минимуму потерю информации в исходных данных, вам следует сохранить достаточно компонентов, чтобы покрыть 95% объясненную разницу. Это, очевидно, сохранит гораздо больше компонентов, чем PA, хотя для многомерных наборов данных уменьшение размерности все равно будет значительным.
Последнее замечание о PCA как проблеме «выбора модели». Я не полностью согласен с ответом Питера. Было много работ, которые переформулировали PCA как проблему типа регрессии, например, Sparse PCA, Sparse Probabilistic PCA или ScotLASS. В этих «основанных на модели» решениях PCA нагрузки являются параметрами, которые могут быть установлены в 0 с соответствующими штрафными терминами. Предположительно, в этом контексте также было бы возможно рассчитать статистику типа AIC или BIC для рассматриваемой модели.
Этот подход теоретически может включать модель, в которой, например, два ПК не ограничены (все нагрузки не равны нулю), в отличие от модели, в которой ПК1 не ограничен, а ПК2 имеет все нагрузки, равные 0. Это будет эквивалентно выводу, является ли ПК2 избыточным. в целом.
Рекомендации (PA) :
источник
AIC предназначен для выбора модели. На самом деле это не проблема выбора модели, и, возможно, вам лучше выбрать другой подход. Альтернативой может быть указание определенного общего процента объясненной дисперсии (например, 75%) и остановка, когда процент достигает 75%, если это когда-либо происходит.
источник
AIC здесь не подходит. Вы не выбираете среди моделей с различным количеством параметров - главный компонент не является параметром.
Существует ряд методов определения количества факторов или компонентов на основе факторного анализа или анализа главных компонентов - тест осадки, собственное значение> 1 и т. Д. Но реальный тест является существенным: какое число факторов имеет смысл ? Посмотрите на факторы, рассмотрите вес, выясните, какой из них лучше всего подходит для ваших данных.
Как и другие вещи в статистике, это не то, что можно легко автоматизировать.
источник