У меня есть данные, для которых я рассчитал корреляцию Спирмена и хочу визуализировать их для публикации. Зависимая переменная ранжируется, независимая переменная - нет. То, что я хочу визуализировать, является скорее общей тенденцией, чем фактическим наклоном, поэтому я оценил независимую и применил корреляцию / регрессию Спирмена. Но как только я подготовил свои данные и собирался вставить их в свою рукопись, я наткнулся на это утверждение (на этом сайте ):
Вы почти никогда не будете использовать линию регрессии ни для описания, ни для предсказания, когда будете делать ранговую корреляцию Спирмена, поэтому не рассчитывайте эквивалент линии регрессии .
и позже
Вы можете отобразить данные ранговой корреляции Спирмена так же, как и для линейной регрессии или корреляции. Однако не ставьте линию регрессии на графике ; было бы неправильно вводить линию линейной регрессии на график, когда вы анализируете ее с помощью ранговой корреляции.
Дело в том, что линии регрессии не сильно отличаются от того, когда я не ранжирую независимую и не вычисляю корреляцию Пирсона. Тенденция та же, но из-за непомерных сборов за цветную графику в журналах я использовал монохромное представление, и фактические точки данных перекрываются настолько, что их невозможно распознать.
Конечно, я мог бы обойти это путем создания двух разных графиков: одного для точек данных (ранжированных) и одного для линии регрессии (не ранжированных), но если окажется, что источник, который я цитировал, неверен или проблема не так проблематично в моем случае, это облегчит мою жизнь. (Я тоже видел этот вопрос , но он мне не помог.)
Изменить для дополнительной информации:
Независимая переменная на оси x представляет количество признаков, а зависимая переменная на оси y представляет собой ранжирование алгоритмов классификации при сравнении их производительности. Теперь у меня есть несколько алгоритмов, которые в среднем сравнимы, но то, что я хочу сказать на своем графике, выглядит примерно так: «Хотя классификатор A становится лучше, чем больше функций присутствует, тем лучше классификатор B, когда меньше функций».
Изменить 2, чтобы включить мои графики:
Ряды алгоритмов нанесены на график в зависимости от количества функций
Ряды алгоритмов построены в зависимости от ранжированного числа признаков
Итак, повторим вопрос из заголовка:
Можно ли построить линию регрессии для ранжированных данных корреляции / регрессии Спирмена?
Ответы:
Ранг-корреляция может быть использована для определения монотонной связи между переменными, как вы заметили; как таковой, вы обычно не строите линию для этого.
Существуют ситуации, когда имеет смысл использовать ранговые корреляции для фактического соответствия строк числовому-y против числового-x, будь то Кендалл или Спирмен (или некоторые другие). Смотрите обсуждение (и, в частности, последний сюжет) здесь .
Это не ваша ситуация, хотя. В вашем случае я был бы склонен просто представить диаграмму рассеяния исходных данных, возможно, с гладкой взаимосвязью (например, с помощью LOESS).
Вы ожидаете, что отношения будут монотонными; Возможно, вы попытаетесь оценить и построить монотонные отношения. [Там есть R-функция обсуждается здесь , что может поместиться изотонической регрессия. - в то время как пример есть унимодален не изотонический, функция может сделать изотонические припадки]
Вот пример того, что я имею в виду:
Сюжет показывает монотонную связь между х и у; красная кривая - это лёссовое сглаживание (в данном случае сгенерированное в R с помощью
scatter.smooth
), которое также оказывается монотонным (есть способы получить сглаживание, которое гарантированно будет монотонным, но в этом случае сглаживание лёсса по умолчанию было монотонным, поэтому Я не чувствовал необходимости беспокоиться.График ранга (y) против ранга (x), что указывает на монотонное отношение. Зеленая линия показывает ранги подгоночных значений кривой Лёсса против ранга (x).
Если вы не отображаете ничего, кроме ранга (Y) против X, я думаю, что я бы избегал использовать линии на графиках; насколько я вижу, они не передают большую ценность выше коэффициента корреляции. И уже сказал, что вас интересует только тренд.
[Я не знаю, что неправильно строить линию регрессии на графике «ранжирование-против-ранжирование-х», трудность заключается в ее интерпретации.]
источник
источник