Я хотел бы найти корреляцию между непрерывной (зависимой переменной) и категориальной (номинальной: пол, независимая переменная) переменной. Непрерывные данные обычно не распространяются. Прежде чем я вычислил его с помощью Спирмена . Однако мне сказали, что это неправильно.
При поиске в интернете я обнаружил, что коробочный график может дать представление о том, насколько они связаны; Тем не менее, я искал количественное значение, такое как коэффициент момента произведения Пирсона или Спирмена . Можете ли вы помочь мне, как это сделать? Или сообщите, какой метод будет уместным?
Будет ли Точка Бизериана Коэффициент правильным вариантом?
correlation
categorical-data
descriptive-statistics
biostatistics
spearman-rho
Md. Ferdous Wahid
источник
источник
Ответы:
Рецензент должен был сказать вам, почему Spearman не подходит. Вот одна из версий этого: Пусть данные будут ( Z i , I i ), где Z - измеренная переменная, а I - гендерный показатель, скажем, 0 (мужчина), 1 (женщина). Затем ρ Спирмена вычисляется на основе рангов Z , I соответственно. Поскольку для индикатора I возможны только два значения, связей будет много, поэтому эта формула не подходит. Если вы замените ранг средним рангом, вы получите только два разных значения: одно для мужчин, другое для женщин. Тогда рρ (Zi,Ii) Z I ρ Z,I I ρ станет в основном некоторой измененной версией средних рангов между двумя группами. Было бы проще (более понятным) просто сравнить средства! Другой подход заключается в следующем.
Пусть - наблюдения непрерывной переменной среди мужчин, Y 1 , ... , Y m - среди женщин. Теперь, если распределения X и Y одинаковы, то P ( X > Y ) будет 0,5 (предположим, что распределение является чисто непрерывным, поэтому нет связей). В общем случае определите θ = P ( X > Y ) где среди женщин. Можем ли мы оценить θX1,…,Xn Y1,…,Ym X Y P(X>Y)
источник
У меня сейчас та же проблема. Я пока не видел, чтобы кто-то ссылался на это, но я исследую точечно-бисериальную корреляцию, которая построена на коэффициенте корреляции Пирсона. Это среднее значение для непрерывной переменной и дихотомической переменной.
Краткое чтение: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php
Я использую R, но я считаю, что SPSS имеет отличную документацию.
источник
Казалось бы, наиболее подходящим сравнением будет сравнение медиан (как это ненормально) и распределения между бинарными категориями. Я бы предложил непараметрический критерий Манна-Уитни ...
источник
Для указанной проблемы может помочь измерение площади под кривой кривой характеристики оператора приемника.
Я не эксперт в этом, поэтому я стараюсь быть проще. Пожалуйста, прокомментируйте любую ошибку или неправильную интерпретацию, чтобы я мог ее изменить.
Вышеупомянутое утверждение вычисляется с областью под кривой.
Пример хорошей корреляции (справа) и справедливой антикорреляции (слева).
источник
Вы должны использовать линейную тенденцию, альтернативную независимости. если вы не знаете этого, вы можете изучить введение в анализ категориальных данных на странице 41.
источник