Быстро оценить (визуально) корреляции между упорядоченными категориальными данными в R?

Я ищу корреляции между ответами на разные вопросы в опросе («хмм, давайте посмотрим, соотносятся ли ответы на вопрос 11 с ответами на вопрос 78»). Все ответы являются категоричными (большинство из них варьируются от «очень несчастных» до «очень счастливых»), но у некоторых есть другой набор ответов. Большинство из них можно считать порядковыми, поэтому давайте рассмотрим этот случай здесь.

Поскольку у меня нет доступа к программе коммерческой статистики, я должен использовать R.

Я попробовал Rattle (бесплатный пакет интеллектуального анализа данных для R, очень изящный), но, к сожалению, он не поддерживает категориальные данные. Один хак, который я мог бы использовать, это импортировать в R закодированную версию опроса, которая имеет цифры (1..5) вместо «очень несчастный» ... «счастливый», и пусть Рэттл считает, что это числовые данные.

Я думал сделать точечный график и иметь размер точки, пропорциональный количеству чисел для каждой пары. После некоторого поиска в Google я нашел http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/, но это кажется очень сложным (для меня).

Я не статистик (но программист), но кое-что прочитал по этому вопросу, и, если я правильно понял, здесь подходит Spearman rho .

Итак, короткая версия вопроса для тех, кто спешит: есть ли способ быстро нарисовать ро Спирмена в R ? График предпочтительнее, чем матрица чисел, потому что он легче для глаз, а также может быть включен в материалы.

Заранее спасибо.

PS Некоторое время я размышлял, стоит ли публиковать это на главном SO сайте или здесь. После поиска обоих сайтов на предмет R-корреляции я почувствовал, что этот сайт лучше подходит для этого вопроса.

r correlation categorical-data data-visualization wishihadabettername
источник

Вы говорите, что R уступает проприетарному программному обеспечению. :)

Роман Луштрик

Для меня совершенно разумно использовать корреляцию Пирсона-продукта-момента (при условии непрерывных данных) в вашем случае (при условии, что на вашей шкале достаточно точек, а не средняя точка не знаю). Целые поля в психологии (например, личность или социальная психология) покоятся (успешно) в предположении, что ответы на один элемент, например, по пятибалльной (или семибалльной) шкале, варьируются от очень не-X до очень X рассматривается как непрерывный. Смотрите также эту ветку

Хенрик

@romunov: Не уверен, что у вас сложилось впечатление, что я считаю, что R уступает другим з / ш. Но это совсем не так.

wishihadabettername

Я просто был умным ослом. Я надеюсь, что нет никаких обид. :)

Роман Луштрик

Ответы:

Пакет corrplot предлагает еще одну хорошую визуализацию корреляции : альтернативный текст

Это отличный пакет.

Также взгляните на ответ здесь , это может быть полезно для вас знать.

Наконец, если у вас есть предложения о том, как код поста, на который вы ссылались, может быть проще - пожалуйста, дайте мне знать.

Таль Галили
источник

Спасибо Тэл, сейчас попробую corrplot. Я также хотел бы знать, как упростить ваше решение (с которым я связался в этом вопросе), но я просто новичок в R, так что вы знаете больше, чем я. Я

обновлю

Corpplot выглядит хорошо. Это дает отличный визуальный снимок размера и направления корреляций. В случае 5-точечных упорядоченных категориальных переменных, возможно, было бы полезно предоставить некоторую другую меру ассоциации помимо корреляции Пирсона: например, полихорические корреляции. Размер стандартных корреляций Пирсона упорядоченных категориальных переменных несколько зависит от среднего значения двух переменных.

Джером Энглим

Пара дополнительных идей для заговора:

Подсолнечник
Точечная диаграмма с дрожанием использованием базовых графических или ggplot2

Джером англим
источник

Подсолнух - веселое решение. Использование джиттера - это то, что я попробовал, когда впервые посмотрел на эту тему, но я обнаружил, что он недостаточно эффективен для построения матриц корреляции ...

Тал Галили

Да, джиттер может стать довольно запутанным с матрицей рассеяния с большим количеством переменных. Я полагаю, что выгода от джиттера и подсолнечника заключается в том, что вы можете видеть необработанные данные (хотя и в случае джиттера).

Джером Энглим

Договорились (люблю джиттер, просто не за это :))

Тал Галили