У меня есть номинальная переменная (разные темы разговора, закодированные как topic0 = 0 и т. Д.) И ряд масштабных переменных (DV), таких как продолжительность разговора.
Как я могу получить корреляции между номинальными и масштабными переменными?
correlation
continuous-data
categorical-data
Пол Миллер
источник
источник
Ответы:
Название этого вопроса предполагает фундаментальное недоразумение. Самая основная идея корреляции заключается в том, что «когда одна переменная увеличивается, увеличивается ли другая переменная (положительная корреляция), уменьшается (отрицательная корреляция) или остается такой же (без корреляции)» с такой шкалой, что идеальная положительная корреляция равна +1, нет корреляции 0, а идеальная отрицательная корреляция равна -1. Значение «идеально» зависит от того, какая мера корреляции используется: для корреляции Пирсона это означает, что точки на графике рассеяния лежат прямо на прямой линии (наклон вверх для +1 и вниз для -1), для корреляции Спирмена, что ранги точно совпадают (или совершенно не согласны, поэтому сначала в паре с последним, для -1), и для тау Кендаллачто все пары наблюдений имеют согласованные ранги (или дискордантные для -1). Интуицию о том, как это работает на практике, можно почерпнуть из корреляций Пирсона для следующих диаграмм рассеяния ( изображение предоставлено ):
Который дает:
Используя «Сплетни» в качестве контрольного уровня для «Темы» и определяя двоичные фиктивные переменные для «Спорт» и «Погода», мы можем выполнить множественную регрессию.
Обратите внимание, что 0.825 не является корреляцией между Длительностью и Темой - мы не можем соотнести эти две переменные, потому что Тема является номинальной. То, что он фактически представляет, является корреляцией между наблюдаемыми длительностями и теми, которые предсказаны (установлены) нашей моделью. Обе эти переменные являются числовыми, поэтому мы можем соотнести их. Фактически подобранные значения - это просто средние значения продолжительности для каждой группы:
Просто чтобы проверить, корреляция Пирсона между наблюдаемыми и подобранными значениями:
Мы можем представить это на графике рассеяния:
Сила этих отношений визуально очень похожа на те, что были на сюжетах Квартета Анскомба, что неудивительно, поскольку все они имели корреляции Пирсона около 0,82.
Вы можете быть удивлены тем, что с категориальной независимой переменной я решил сделать (множественную) регрессию, а не одностороннюю ANOVA . Но на самом деле это оказывается эквивалентным подходом.
Это дает сводку с идентичными F-статистикой и p- значением:
Опять же, модель ANOVA соответствует групповым средствам, как регрессия:
Однако вполне возможно, что ни «корреляция», ни «объясненная пропорция дисперсии» не является мерой величины эффекта, которую вы хотите использовать. Например, вы можете сосредоточиться больше на том, как средства отличаются между группами. Этот вопрос и ответ содержат больше информации о квадрате Ета, частичном квадрате Ета и различных альтернативах.
источник