В общем, что подразумевается под тем, чтобы сказать, что доля дисперсии в анализе, подобном PCA, объясняется первым основным компонентом? Может ли кто-то объяснить это интуитивно, но также дать точное математическое определение того, что означает «объяснение отклонений» в терминах анализа главных компонентов (PCA)?
Для простой линейной регрессии r-квадрат линии наилучшего соответствия всегда описывается как пропорция объясненной дисперсии, но я также не уверен, что с этим делать. Является ли здесь соотношение отклонений только продолжением отклонения точек от линии наилучшего соответствия?
Ответы:
В случае PCA «дисперсия» означает суммарную дисперсию или многомерную изменчивость или общую изменчивость или общую изменчивость . Ниже ковариационная матрица из 3 переменных. Их дисперсии находятся на диагонали, а сумма 3 значений (3.448) является общей изменчивостью.
Теперь PCA заменяет исходные переменные новыми переменными, называемыми главными компонентами, которые являются ортогональными (то есть имеют нулевые ковариации) и имеют дисперсии (называемые собственными значениями) в порядке убывания. Итак, ковариационная матрица между основными компонентами, извлеченными из приведенных выше данных, такова:
Обратите внимание, что диагональная сумма по-прежнему составляет 3,448, что говорит о том, что все 3 компонента учитывают всю многомерную переменность. Первый основной компонент составляет или «объясняет» 1.651 / 3.448 = 47.9% от общей изменчивости; второй объясняет 1,220 / 3,448 = 35,4%; третий объясняет .577 / 3.448 = 16,7% от этого.
Итак, что они имеют в виду, когда говорят, что « PCA максимизирует дисперсию » или « PCA объясняет максимальную дисперсию »? Это, конечно, не то, что он находит наибольшую дисперсию среди трех значений
1.343730519 .619205620 1.485549631
, нет. PCA находит в пространстве данных измерение (направление) с наибольшей дисперсией из общей дисперсии1.343730519+.619205620+1.485549631 = 3.448
. Это самая большая разница будет1.651354285
. Затем он находит размер второй по величине дисперсии, ортогональной первой, из оставшейся3.448-1.651354285
общей дисперсии. Это второе измерение будет1.220288343
дисперсией. И так далее. Последнее остающееся измерение -.576843142
дисперсия. Смотрите также «Pt3» здесь и отличный ответ здесь объясняя, как это делается более подробно.Математически PCA выполняется через функции линейной алгебры, называемые собственным разложением или svd-разложением. Эти функции будут возвращать вам все собственные значения
1.651354285 1.220288343 .576843142
(и соответствующие собственные векторы) одновременно ( см. , См. ).источник
@ttnphns дал хороший ответ, возможно, я могу добавить несколько моментов. Во-первых, я хочу отметить, что на резюме был актуальный вопрос с очень сильным ответом - вы определенно хотите его проверить. В дальнейшем я буду ссылаться на графики, показанные в этом ответе.
Все три графика отображают одинаковые данные. Обратите внимание, что данные изменчивы как по вертикали, так и по горизонтали, но мы можем думать, что большая часть изменчивости фактически является диагональной . На третьем графике эта длинная черная диагональная линия является первым собственным вектором (или первым компонентом принципа), а длина этого основного компонента (разброс данных вдоль этой линии - на самом деле не длина самой линии, которая просто нарисован на сюжете) это первое собственное значение- это сумма отклонений, учитываемых первым основным компонентом. Если бы вы суммировали эту длину с длиной второго основного компонента (которая является шириной разброса данных, ортогонально от этой диагональной линии), а затем поделили любое из собственных значений на эту сумму, вы бы получили процент дисперсии приходится на соответствующий основной компонент.
С другой стороны, чтобы понять процент дисперсии, учитываемой в регрессии, вы можете взглянуть на верхний график. В этом случае красная линия является линией регрессии или набором прогнозируемых значений из модели. Объясненную дисперсию можно понимать как отношение вертикального разброса линии регрессии (то есть от самой низкой точки на линии к самой высокой точке на линии) к вертикальному разбросу данных (то есть от самой низкой точки данных до самой высокой точки данных). Конечно, это всего лишь дурная идея, потому что буквально это диапазоны, а не отклонения, но это должно помочь вам понять смысл.
Обязательно прочитайте вопрос. И, хотя я ссылался на верхний ответ, некоторые из приведенных ответов превосходны. Это стоит вашего времени, чтобы прочитать их все.
источник
Существует очень простой, прямой и точный математический ответ на исходный вопрос.
В этом смысле вы можете интерпретировать первый ПК как максимизатор «объясненная дисперсия» или, точнее, максимизатор «объясненная полная дисперсия».
Ссылки на оригинальную литературу и расширения см.
Westfall, PH, Arias, AL, и Fulton, LV (2017). Обучение основных компонентов с использованием корреляций, многомерное поведенческое исследование, 52, 648-660.
источник
источник