PCA по корреляции или ковариации: имеет ли смысл PCA по корреляции когда-либо? [закрыто]

32

В анализе главных компонентов (PCA) можно выбрать либо ковариационную матрицу, либо матрицу корреляции, чтобы найти компоненты (из их соответствующих собственных векторов). Они дают разные результаты (загрузки ПК и оценки), потому что собственные векторы между обеими матрицами не равны. Насколько я понимаю, это связано с тем, что вектор необработанных данных и его стандартизация Z не могут быть связаны посредством ортогонального преобразования. Математически подобные матрицы (то есть связанные ортогональным преобразованием) имеют одинаковые собственные значения, но не обязательно одинаковые собственные векторы.XZ

Это вызывает некоторые трудности в моей голове:

  1. Имеет ли смысл PCA, если вы можете получить два разных ответа для одного и того же набора исходных данных, оба пытаясь достичь одного и того же (= найти направления максимальной дисперсии)?

  2. При использовании подхода с корреляционной матрицей каждая переменная стандартизируется (масштабируется) по собственному индивидуальному стандартному отклонению перед вычислением ПК. Как же тогда все-таки имеет смысл находить направления максимальной дисперсии, если данные уже были предварительно по-разному масштабированы / сжаты? Я знаю, что PCA, основанный на корреляции, очень удобен (стандартизированные переменные являются безразмерными, поэтому их линейные комбинации могут быть добавлены; другие преимущества также основаны на прагматизме), но верно ли это?

Мне кажется, что PCA на основе ковариации является единственным действительно правильным (даже когда дисперсии переменных сильно различаются), и что всякий раз, когда эту версию нельзя использовать, PCA на основе корреляции также не следует использовать.

Я знаю, что есть эта тема: PCA на корреляции или ковариации? - но, похоже, он сосредоточен только на поиске прагматического решения, которое может быть, а может и не быть алгебраически правильным.

Lucozade
источник
4
Я буду честен и скажу вам, что я перестал читать ваш вопрос в какой-то момент. Спс имеет смысл. Да, результаты могут отличаться в зависимости от того, используете ли вы матрицу корреляции или дисперсию / ковариацию. PCA на основе корреляции предпочтительнее, если ваши переменные измеряются по разным шкалам, но вы не хотите, чтобы это доминировало в результате. Представьте, что если у вас есть ряд переменных, которые варьируются от 0 до 1, а затем есть переменные, которые имеют очень большие значения (условно говоря, например, от 0 до 1000), большая дисперсия, связанная со второй группой переменных, будет доминировать.
Патрик
4
Но это относится и ко многим другим методам, и я думаю, что точка зрения Патрика разумна. Также это был просто комментарий, не нужно становиться агрессивным. Вообще говоря, почему вы предполагаете, что должен быть один истинный «алгебраически» правильный способ решения проблемы?
Гала
5
Возможно, вы думаете о PCA неправильно: это просто трансформация, поэтому нет сомнений в том, что она правильная или неправильная, или полагается на предположения о модели данных - в отличие, скажем, от регрессионного или факторного анализа.
Scortchi - Восстановить Монику
5
Суть этого вопроса заключается в неправильном понимании того, что делает стандартизация и как работает PCA. Это понятно, потому что хорошее понимание PCA требует визуализации многомерных форм. Я бы сказал, что этот вопрос, как и многие другие вопросы, основанные на некотором заблуждении, является, таким образом, хорошим и должен оставаться открытым, потому что его ответ (ы) может раскрыть истины, которые многие люди не могли до конца оценить.
whuber
6
PCA ничего не «требует». Люди делают заявления о PCA и фактически используют его по-разному в зависимости от области. Некоторые из этих применений могут быть глупыми или сомнительными, но не очень полезно предполагать, что один вариант метода должен быть «алгебраически правильным» без ссылки на контекст или цель анализа.
Гала

Ответы:

29

Я надеюсь, что эти ответы на ваши два вопроса успокоят ваше беспокойство:

  1. Корреляционная матрица - это ковариационная матрица стандартизированных (то есть не только центрированных, но и перемасштабированных) данных; то есть ковариационная матрица (как будто) другого , другого набора данных. Так что это естественно, и вас не должно беспокоить, что результаты отличаются.
  2. Да, имеет смысл найти направления максимальной дисперсии со стандартизованными данными - они являются направлениями, так сказать, «корреляции», а не «ковариации»; то есть после того, как влияние неравномерных отклонений - исходных переменных - на форму многомерного облака данных было снято.

Следующий текст и фотографии добавлены @whuber (благодарю его. Также смотрите мой комментарий ниже)

Вот двумерный пример, показывающий, почему все еще имеет смысл определять главные оси стандартизированных данных (показано справа). Обратите внимание, что на правом графике облако все еще имеет «форму», даже несмотря на то, что отклонения вдоль осей координат теперь точно равны (до 1,0). Точно так же в более высоких измерениях стандартизированное облако точек будет иметь несферическую форму, даже если отклонения по всем осям точно равны (до 1,0). Главные оси (с соответствующими значениями) описывают эту форму. Другой способ понять это - заметить, что все масштабирование и смещение, которые происходят при стандартизации переменных, происходят только в направлениях осей координат, а не в самих основных направлениях.

фигура

То, что здесь происходит, геометрически настолько интуитивно и ясно, что было бы сложно охарактеризовать это как «операцию черного ящика»: напротив, стандартизация и PCA - это одни из самых простых и рутинных вещей, которые мы делаем с данными в порядке чтобы понять их.


Продолжение @ttnphns

Когда бы вы предпочли сделать PCA (или факторный анализ или другой подобный тип анализа) на корреляциях (то есть на z-стандартизированных переменных) вместо того, чтобы делать это на ковариациях (то есть на центрированных переменных)?

  1. Когда переменными являются разные единицы измерения. Это понятно
  2. Когда кто-то хочет, чтобы анализ отражал справедливые и только линейные ассоциации. Пирсон r - это не только ковариация между непересекающимися (дисперсия = 1) переменными; это внезапно мера силы линейных отношений, тогда как обычный коэффициент ковариации восприимчив как к линейным, так и к монотонным отношениям.
  3. Когда кто-то хочет, чтобы ассоциации отражали относительную совместимость (от среднего значения), а не грубую совместность. Корреляция основана на распределениях, их разбросах, в то время как ковариация основана на исходной шкале измерений. Если бы я проанализировал психопатологические профили пациентов в том виде, в каком они были собраны психиатрами в некоторых клинических анкетах, состоящих из элементов типа Лайкерта, я бы предпочел ковариации. Потому что профессионалы не должны искажать шкалу оценок внутрипсихически. С другой стороны, если бы я проанализировал автопортреты пациентов с помощью той же анкеты, я бы, вероятно, выбрал корреляции. Поскольку оценка непрофессионала, как ожидается, будет относительной «другие люди», «большинство» «допустимое отклонение» лупа, которая «сжимает» или «растягивает» рейтинговую шкалу на единицу.
ttnphns
источник
1
1. Извините, но это сильно беспокоит. Для внешнего лица стандартизация является операцией «черного ящика», частью предварительной обработки данных PCA (также в ICA). Он хочет получить один ответ для своих (необработанных) входных данных, особенно если он касается физических (размерных) данных, для которых выходные данные PCA также должны интерпретироваться физически (т. Е. В терминах нестандартных переменных).
Лукозаде
1
Ваша последняя ревизия, кажется, является повторным утверждением, что «PCA на основе ковариации является единственным действительно правильным». Поскольку полные ответы до сих пор, по сути, «Нет; неправильный способ думать об этом; и вот почему», трудно понять, как вы ожидаете направить дискуссию против такого подавляющего несогласия.
Ник Кокс
4
@Lucozade: я был озадачен вашим описанием вашего заявления: - Как PCA рекомендует что-либо? Как вы измерили производительность ? Аналогично для вашего последнего комментария: - Оптимальный для чего?
Scortchi - Восстановить Монику
5
@Lucozade: Действительно, послушай, пожалуйста, что сказал Scortchi, похоже, ты продолжаешь гоняться за призраками. PCA - это просто особая форма вращения данных в пространстве. Он всегда делает оптимально то, что он делает с входными данными. Дилемма cov-corr является прагматичной, основанной на предварительной обработке данных и решаемой на этом уровне, а не на уровне PCA.
ttnphns
1
@Lucozade: На основании вашего ответа мне будет (не эксперт) мнение, что в ваших конкретных потребностях вы вправе хотеть PCA на основе покрытия. Опять же, все ваши переменные являются однородными с точки зрения данных / типа измерения (тот же тип машины, и все данные в вольтах). Для меня ваш пример явно является случаем, когда cov-PCA является верным, но, пожалуйста, обратите внимание, что это не всегда так, и я думаю, что это важный момент этого потока (выбор cor v. Cov зависит от конкретного случая и потребностей определяется человеком, который лучше всех понимает данные и приложение). Удачи в ваших исследованиях!
Патрик
6

Если говорить с практической точки зрения - возможно, непопулярной здесь - если у вас есть данные, измеренные в разных масштабах, то используйте корреляцию («УФ-масштабирование», если вы хемометрик), но если переменные находятся в одном масштабе, и размер их имеет значение (например, со спектроскопическими данными), тогда ковариация (центрирование только данных) имеет больше смысла. PCA - это метод, зависящий от масштаба, а также преобразование журналов может помочь с сильно искаженными данными.

По моему скромному мнению, основываясь на 20-летнем практическом применении хемометрики, вам нужно немного поэкспериментировать и посмотреть, что лучше всего подходит для вашего типа данных. В конце дня вы должны быть в состоянии воспроизвести ваши результаты и попытаться доказать предсказуемость ваших выводов. То, как вы туда попадаете, часто бывает методом проб и ошибок, но важно то, что вы делаете, документированы и воспроизводимы.

отметка
источник
4
Практический подход, который вы, похоже, здесь отстаиваете, сводится к тому, - когда оправданы и ковариации, и корреляции, - «попробовать оба и посмотреть, что работает лучше всего». Эта чистая эмпирическая позиция маскирует тот факт, что любой выбор связан с его собственными предположениями или парадигмой о реальности, о которых исследователь должен знать заранее, даже если он понимает, что один из них он предпочитает полностью произвольно. Выбор «того, что работает лучше всего», основывается на ощущении удовольствия, наркомании.
ttnphns
-2

Иксяs2(Икс1/s1)+(Икс2/s2)знак равно(Икс1+Икс2)/sИкс1+Икс2s1s2градусов. Кажется, что нет смысла максимизировать дисперсию их линейной комбинации. В этом случае PCA предлагает решение для другого набора данных, в соответствии с которым каждая переменная масштабируется по-разному. Если после этого вы нестандартно (при использовании corr_PCA), тогда это может быть нормально и необходимо; но если вы просто примете исходное решение corr_PCA как есть и остановитесь на нем, вы получите математическое решение, но не связанное с физическими данными. Поскольку нестандартность впоследствии кажется обязательной как минимум (т. Е. «Растягивание» осей обратными стандартными отклонениями), cov_PCA можно было бы использовать для начала. Если вы все еще читаете сейчас, я впечатлен! А пока я заканчиваю цитатой из книги Джоллиффа, с. 42, которая является частью, которая касается меня:«Однако не следует забывать, что ПК с корреляционной матрицей, если их повторно выражать в терминах исходных переменных, все еще являются линейными функциями от x, которые максимизируют дисперсию относительно стандартизированных переменных, а не относительно исходных переменных». Если вы считаете, что я неверно истолковываю это или его значение, этот отрывок может стать хорошей отправной точкой для дальнейшего обсуждения.

Lucozade
источник
3
Это так забавно, что ваш собственный ответ, который созвучен всему, что люди здесь пытались донести до вас, остается для вас нерешенным. Вы все еще спорите There seems little pointв PCA о корреляциях. Что ж, если вам нужно оставаться близко к необработанным данным («физическим данным», как вы их странно называете), вам не следует использовать корреляции, поскольку они соответствуют другим («искаженным») данным.
ttnphns
2
(Продолжение) Цитата Джоллиффа гласит, что ПК, полученные на корреляциях, всегда будут сами по себе и не могут быть превращены «обратно» в ПК на ковариациях, даже если вы можете повторно выразить их как линейные комбинации исходных переменных. Таким образом, Джоллифф подчеркивает идею о том, что результаты PCA полностью зависят от типа используемой предварительной обработки и что не существует «настоящих», «подлинных» или «универсальных» ПК ...
ttnphns
2
(Продолжение) И на самом деле, несколько строк ниже Джоллифф говорит о еще одной "форме" PCA - PCA на X'X матрице. Эта форма даже «ближе» к исходным данным, чем cov-PCA, потому что не производится центрирование переменных. И результаты, как правило, совершенно разные . Вы также можете сделать PCA на косинус. Люди делают PCA на всех версиях матрицы SSCP , хотя ковариации или корреляции используются чаще всего.
ttnphns
3
В основе этого ответа лежит неявное предположение, что единицы измерения данных имеют внутреннее значение. Это редко имеет место: мы можем выбрать измерение длины в ангстремах, парсеках или чем-либо еще, а время - в пикосекундах или тысячелетиях, не меняя значения данных на одну йоту. Изменения, сделанные при переходе от ковариации к корреляции, являются просто изменениями единиц (которые, между прочим, особенно чувствительны к внешним данным). Это говорит о том, что проблема не в ковариации по сравнению с корреляции, а в том, чтобы найти плодотворные способы представления данных для анализа.
whuber
3
@ttnphns Я буду придерживаться "просто", спасибо. Независимо от того, являются ли последствия «глубокими», факт остается фактом: стандартизация переменной буквально является аффинным повторным выражением ее значений: изменением единиц измерения. Важность этого наблюдения заключается в его значении для некоторых утверждений, появляющихся в этой теме, из которых наиболее заметным является «PCA на основе ковариации - единственно истинно верный». Любая концепция правильности, которая в конечном итоге зависит от по существу произвольного аспекта данных - как мы их записываем - не может быть правильной.
whuber