Канонический корреляционный анализ с ранговой корреляцией

15

Канонический корреляционный анализ (CCA) стремится максимизировать обычную корреляцию Пирсона с моментом произведения (то есть линейный коэффициент корреляции) линейных комбинаций двух наборов данных.

Теперь рассмотрим тот факт , что этот коэффициент корреляции только измеряет линейные ассоциаций - это причина того, почему мы используем, например, Spearman- или Кендал (ранг) коэффициенты корреляции измеряющие произвольный монотонный (не обязательно линейная) связь между переменными.τρτ

Следовательно, я думал о следующем: одним из ограничений CCA является то, что он пытается захватить только линейную связь между сформированными линейными комбинациями из-за своей целевой функции. Не было бы возможно расширить CCA в каком - то смысле, максимизируя, скажем, Spearman- вместо Pearson- г ?ρr

Приведет ли такая процедура к чему-либо статистически интерпретируемому и значимому? (Имеет ли смысл - например - выполнять CCA в рядах ...?) Мне интересно, поможет ли это, когда мы имеем дело с ненормальными данными ...

Тамас Ференци
источник
4
Будет ли вам по душе OVERALS - линейный канонический анализ, который оптимально масштабирует (монотонно преобразует) переменные для максимизации канонических корреляций?
ttnphns
@ttnphns: Спасибо за идею, я не слышал об этом раньше, и выглядит действительно интересно! Однако я не думаю, что это решает проблему: насколько я понимаю, это, по сути, комбинация оптимального масштабирования и CCA - но оптимальное масштабирование действительно имеет смысл только для категориальных переменных. Кажется, он не сильно меняется для непрерывных переменных, измеряемых по шкале отношений (что я имею в виду!). Но поправьте меня, если я ошибаюсь.
Тамас Ференци
1
@ttnphns: Точно так же, как вы иногда используете корреляцию Спирмена для непрерывных переменных! (Конечно, он обрабатывает данные как порядковые ... но мы, тем не менее, используем их на определенно непрерывных переменных для характеристики общей монотонной (и не только линейной) связи между переменными.) Вот почему я подумал, что это будет иметь смысл и в CCA ...
Тамас Ференци
@Glen_b, ты прав. Конечно, ранг корреляции для любой монотонности - будь то порядковые или непрерывные данные. Я так удивлен своим собственным комментарием выше, что удаляю его.
ttnphns
Вы можете попробовать использовать Kernel CCA, который, в частности, при использовании с радиальными базисными функциями позволяет нам проецировать данные в бесконечномерное подпространство.
Рони

Ответы:

6

Я использовал ограниченные расширения кубического сплайна при вычислении канонических переменных. Вы добавляете нелинейные базисные функции в анализ точно так же, как если бы вы добавляли новые функции. Это приводит к нелинейному анализу главных компонентов. См R Hmiscпакет «s transcanфункции для примера. R homalsпакет занимает это гораздо дальше.

Фрэнк Харрелл
источник
1
Спасибо! Подход, описанный в homals, был для меня новым, но определенно интересным.
Тамас Ференци
4

Стандартный метод CCA работает с матрицей коэффициента корреляции продукта. Для наибольшего mgnitude CC он строит две составные переменные z1 (n) и z2 (n) путем линейной комбинации двух матиксов (с n строками и переменными m1 и m2), так что abs (корреляция (z1, z2)) максимизируется. Эта целевая функция может быть максимизирована напрямую, даже если корреляция (z1, z2) не является моментом произведения, а определяется по-другому.

Мишра С.К. (2009) «Записка об ординальном каноническом корреляционном анализе двух наборов ранжирующих баллов»

http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1328319

СК Мишра
источник