Я хочу уменьшить размерность систем более высокого порядка и захватить большую часть ковариации предпочтительно в двухмерном или одномерном поле. Я понимаю, что это можно сделать с помощью анализа основных компонентов, и я использовал PCA во многих сценариях. Однако я никогда не использовал его с логическими типами данных, и мне было интересно, имеет ли смысл делать PCA с этим набором. Например, представьте, что у меня есть качественные или описательные метрики, и я назначаю «1», если эта метрика действительна для этого измерения, и «0», если это не так (двоичные данные). Например, представьте, что вы пытаетесь сравнить Семь Гномов в Белоснежке. У нас есть:
Док, Дурман, Застенчивый, Сердитый, Чихающий, Сонный и Счастливый, и вы хотите расположить их по качествам, и сделали так:
Так, например, Bashful не переносит лактозу и не входит в список почестей. Это чисто гипотетическая матрица, и моя реальная матрица будет иметь гораздо больше описательных столбцов. Мой вопрос заключается в том, будет ли по-прежнему целесообразно использовать PCA на этой матрице для определения сходства между людьми?
a means of finding the similarity between individuals
, Но эта задача для кластерного анализа, а не PCA.Ответы:
Я хотел бы предложить вам относительно недавнюю технику для автоматического извлечения структуры из данных категориальных переменных (включая двоичные данные). Этот метод называется CorEx от Грега ван Стига из Университета Южной Калифорнии. Идея состоит в том, чтобы использовать понятие полной корреляции, основанное на мерах энтропии. Он привлекателен из-за своей простоты и отсутствия настройки большого количества гиперпараметров.
Статья об иерархических представлениях (самая последняя, основанная на предыдущих мерах). http://arxiv.org/pdf/1410.7404.pdf
источник
Вы также можете использовать Анализ множественной корреспонденции (MCA), который является расширением анализа основных компонентов, когда анализируемые переменные являются категориальными, а не количественными (что в данном случае имеет место с вашими двоичными переменными). Смотри, например, Husson et al. (2010) или Абди и Валентин (2007) . Отличным пакетом R для выполнения MCA (и иерархической кластеризации на ПК) является FactoMineR .
источник
inflation of the feature space
и почему это произойдет в PCA, а не в MCA.inflation of the feature space
явление. Кажется, он вступает в игру при переходе от CA к MCA, но это не является неотъемлемой проблемой PCA. Я собираюсь удалить мой ответ, когда вы прочитаете этот комментарий. Спасибо, что заставил меня понять это.Если вы считаете PCA исследовательским методом, который дает вам способ визуализировать отношения между переменными (и, на мой взгляд, это единственный способ думать об этом), то да, нет никаких причин, по которым вы не можете поместить в двоичный файл переменные. Например, вот список ваших данных
Это кажется достаточно полезным. Например, вы можете видеть, что Док и Bashful очень похожи; что ЧСС в отличие от трех других переменных; Сонные и чихающие очень разные и т. Д.
источник