Это небольшая проверка, пожалуйста, помогите мне понять, неправильно ли я понимаю эту концепцию и каким образом.
У меня есть функциональное понимание корреляции, но я чувствую себя немного цепко, чтобы действительно уверенно объяснить принципы, лежащие в основе этого функционального понимания.
Насколько я понимаю, статистическая корреляция (в отличие от более общего использования термина) - это способ понять две непрерывные переменные и то, как они растут или не имеют тенденцию к росту или падению подобными способами.
Причина, по которой вы не можете выполнить корреляции, скажем, для одной непрерывной и одной категориальной переменной, заключается в том, что невозможно вычислить ковариацию между этими двумя значениями, поскольку категориальная переменная по определению не может дать среднее значение и, следовательно, не может даже войти в первую этапы статистического анализа.
Это правильно?
Ответы:
Корреляция - это стандартизированная ковариация, то есть ковариацияx и y деленная на стандартное отклонение x и y . Позвольте мне проиллюстрировать это.
Грубо говоря, статистику можно суммировать как подгонку моделей к данным и оценку того, насколько хорошо модель описывает эти точки данных ( результат = модель + ошибка ). Один из способов сделать это - вычислить суммы отклонений или остатков (res) из модели:
Многие статистические расчеты основаны на этом, в т.ч. коэффициент корреляции (см. ниже).
Вот примерный набор данных
R
(остатки обозначены красными линиями, а их значения добавлены рядом с ними):X=11
Y=5.4
Для удобства можно взять квадратный корень выборочной дисперсии, который известен как стандартное отклонение выборки:
Теперь ковариация оценивает, связаны ли две переменные друг с другом. Положительное значение указывает, что когда одна переменная отклоняется от среднего значения, другая переменная отклоняется в том же направлении.
X
Y
Короче говоря, да, ваши чувства верны, но я надеюсь, что мой ответ может дать некоторый контекст.
источник
Вы (почти) правы. Ковариация (и, следовательно, также корреляция) может быть вычислена только между числовыми переменными. Это включает в себя непрерывные переменные, а также дискретные числовые переменные.
Категориальные переменные могут использоваться для вычисления корреляции только с учетом полезного числового кода для них, но это вряд ли даст практическое преимущество - возможно, это может быть полезно для некоторых двухуровневых категориальных переменных, но другие инструменты, вероятно, будут более подходящими.
источник
Нет ничего плохого в вычислении корреляций, когда одна из переменных является категориальной. Сильная положительная корреляция подразумевает, что включение вашей категориальной переменной (или выключение в зависимости от вашего соглашения) вызывает увеличение отклика. Например, это может произойти при расчете логистической регрессии, когда переменные являются категориальными: прогнозирование вероятности сердечного приступа с учетом сопутствующих заболеваний пациента, таких как диабет и ИМТ. В этом случае ИМТ имел бы очень сильную корреляцию с сердечными приступами. Вы пришли бы к выводу, что это не полезно?
источник