Что максимизируют первые

В анализе главных компонентов первые главных компонентов - это ортогональных направлений с максимальной дисперсией. Другими словами, первый главный компонент выбирается как направление максимальной дисперсии, второй главный компонент выбирается как направление, ортогональное первому с максимальной дисперсией, и так далее. $k$ $k$

Есть ли аналогичная интерпретация факторного анализа? Например, я думаю, что первые факторов - это факторы, которые лучше всего объясняют недиагональные компоненты исходной корреляционной матрицы (в смысле, скажем, квадрата ошибки между исходной корреляционной матрицей и корреляционной матрицей, определяемой факторы). Это правда (или есть что-то похожее, что мы можем сказать)? $k$

pca factor-analysis raegtin
источник

Хотя я согласен почти со всем, что @NRH написал в своем ответе (+1), краткий ответ на ваш последний вопрос: да, это точно так . Обратите внимание, что в FA коэффициенты также могут быть выбраны как ортогональные, как в PCA. Разница только в воспроизведении всей корреляционной матрицы (PCA) по сравнению с воспроизведением только ее недиагональной части (FA). Для более подробного обсуждения см. Мои ответы в Условиях сходства PCA и Факторного анализа и есть ли веская причина использовать PCA вместо EFA?

говорит амеба, восстановите Монику

Я не уверен, действительно ли FA «минимизирует (сумму) квадратичных частичных ковариаций», потому что существует критерий вращения / извлечения, называемый «MinRes», обоснование которого именно это. Тогда зачем давать ему отличительное имя? Возможно, стандартные процедуры для нахождения FA-решения математически дают идентичные результаты, если число k факторов идеально воспроизводит ковариации, но поскольку k является оценкой, возможно, что в случае несовершенства / недооценки FA-решение не является идентичен MinRes-решению. Ну, я говорю: может быть - я хотел бы увидеть точное объяснение.

Готфрид Хелмс

Ответы:

PCA - это, прежде всего, метод сокращения данных, целью которого является получение проекции данных в пространство меньшего размера. Две эквивалентные цели состоят в том, чтобы либо максимизировать дисперсию итеративно, либо минимизировать ошибку реконструкции. Это на самом деле проработано в некоторых деталях в ответах на этот предыдущий вопрос .

Напротив, факторный анализ - это прежде всего порождающая модель мерного вектора данных говорящая о том, что где - мерный вектор скрытых факторов, - это с а - это вектор некоррелированных ошибок. Матрица является матрицей факторных нагрузок . Это дает специальную параметризацию ковариационной матрицы как $p$ $X$

X = A S + ϵ

$X = AS + \epsilon$

S

$S$

q

$q$

A

$A$

p \times k

$p \times k$

k < p

$k < p$

ϵ

$\epsilon$

A

$A$

Σ = A A^{T} + D

$\Sigma = AA^T + D$ Проблема этой модели заключается в том, что она является чрезмерно параметризованной. Такая же модель получается, если

заменить на

для любой

ортогональной матрицы

, что означает, что сами факторы не являются уникальными. Существуют различные предложения для решения этой проблемы, но не существует единственного решения, которое дало бы вам факторы с той интерпретацией, о которой вы просите. Один популярный выбор - вращение Varimax . Однако используемый критерий определяет только вращение. Пространство столбцов, охватываемое

, не изменяется, и, поскольку оно является частью параметризации, оно определяется любым методом, используемым для оценки

A

$A$

A R

$AR$

k \times k

$k \times k$

R

$R$

A

$A$

Σ

$\Sigma$ - по максимальной вероятности в гауссовой модели, скажем.

Следовательно, чтобы ответить на вопрос, выбранные факторы не задаются автоматически при использовании модели факторного анализа, поэтому не существует единой интерпретации первых факторов. указать метод, используемый для оценки (пространство столбцов) и метод, используемый для выбора поворота. Если (все ошибки имеют одинаковую дисперсию), решением MLE для пространства столбцов является пространство, охватываемое ведущими векторами главных компонент, которые могут быть найдены посредством разложения по сингулярным числам. Конечно, можно выбрать не вращать и сообщать об этих основных компонентных векторах как факторах. $k$ $A$ $D = \sigma^2 I$ $A$ $q$

$k$ $k$ $k$

NRH
источник

Да, я понимаю, что не существует уникального выбора k факторов (поскольку мы можем повернуть их и получить ту же модель). Но делает ли какой-либо выбор k факторов, выбранных с помощью факторного анализа, своего рода «максимальное объяснение корреляции»?

raegtin

@raegtin, я отредактировал ответ, чтобы объяснить мою точку зрения, что это модель ковариационной матрицы. Любой выбор факторов, полученных с помощью поворотов, с моей точки зрения, одинаково хорош или плох при объяснении ковариаций в данных, поскольку они производят одну и ту же ковариационную матрицу.

NRH

Спасибо за обновление, это отличное объяснение ФА! Итак, когда вы говорите «цель модели - наилучшее объяснение ковариации», вы имеете в виду, что k факторов действительно максимизируют количество объясненной ковариации?

raegtin

@raegtin, да, я рассматриваю модель как модель ковариационной матрицы, и когда вы оцениваете модель, будет справедливо сказать, что вы максимизируете количество объясненной ковариации.

NRH

@raegtin и NRH (+1 к слову): просто чтобы уточнить. Выше два комментария верны, если под «ковариацией» мы понимаем «недиагональную часть ковариационной матрицы».

говорит амеба, восстанови Монику

@RAEGTIN, я считаю, что вы думаете правильно. После извлечения и предшествующего поворота каждый последующий фактор учитывает все меньше и меньше ковариации / корреляции, так же как каждый последующий компонент учитывает все меньшую и меньшую дисперсию: в обоих случаях столбцы матрицы загрузки A располагаются в порядке убывания сумма квадратов элементов (нагрузок) в них. Нагрузка является коэффициентом корреляции и переменной; поэтому можно сказать, что 1-й фактор объясняет наибольшую часть «общего» квадрата r в матрице R , 2-й фактор здесь второй и т. д. Разница между FA и PCA, однако, в прогнозировании корреляций по нагрузкам заключается в следующем: FA «откалиброван» для восстановления Rдостаточно просто с m извлеченными факторами (m множителями <p-переменными), в то время как PCA грубо восстанавливает его с помощью m компонентов, - ему нужны все p-компоненты, чтобы восстановить R без ошибок.

PS Просто чтобы добавить. В FA значение нагрузки «состоит» из чистой общности (часть дисперсии, ответственной за корреляцию), тогда как в PCA загрузка представляет собой смесь общности и уникальности переменной и, следовательно, захватывает изменчивость.

ttnphns
источник