Можно ли строить линию регрессии для ранжированных данных (корреляция Спирмена)?

У меня есть данные, для которых я рассчитал корреляцию Спирмена и хочу визуализировать их для публикации. Зависимая переменная ранжируется, независимая переменная - нет. То, что я хочу визуализировать, является скорее общей тенденцией, чем фактическим наклоном, поэтому я оценил независимую и применил корреляцию / регрессию Спирмена. Но как только я подготовил свои данные и собирался вставить их в свою рукопись, я наткнулся на это утверждение (на этом сайте ):

Вы почти никогда не будете использовать линию регрессии ни для описания, ни для предсказания, когда будете делать ранговую корреляцию Спирмена, поэтому не рассчитывайте эквивалент линии регрессии .

и позже

Вы можете отобразить данные ранговой корреляции Спирмена так же, как и для линейной регрессии или корреляции. Однако не ставьте линию регрессии на графике ; было бы неправильно вводить линию линейной регрессии на график, когда вы анализируете ее с помощью ранговой корреляции.

Дело в том, что линии регрессии не сильно отличаются от того, когда я не ранжирую независимую и не вычисляю корреляцию Пирсона. Тенденция та же, но из-за непомерных сборов за цветную графику в журналах я использовал монохромное представление, и фактические точки данных перекрываются настолько, что их невозможно распознать.

Конечно, я мог бы обойти это путем создания двух разных графиков: одного для точек данных (ранжированных) и одного для линии регрессии (не ранжированных), но если окажется, что источник, который я цитировал, неверен или проблема не так проблематично в моем случае, это облегчит мою жизнь. (Я тоже видел этот вопрос , но он мне не помог.)

Изменить для дополнительной информации:

Независимая переменная на оси x представляет количество признаков, а зависимая переменная на оси y представляет собой ранжирование алгоритмов классификации при сравнении их производительности. Теперь у меня есть несколько алгоритмов, которые в среднем сравнимы, но то, что я хочу сказать на своем графике, выглядит примерно так: «Хотя классификатор A становится лучше, чем больше функций присутствует, тем лучше классификатор B, когда меньше функций».

Изменить 2, чтобы включить мои графики:

Ряды алгоритмов нанесены на график в зависимости от количества функций введите описание изображения здесь

Ряды алгоритмов построены в зависимости от ранжированного числа признаков введите описание изображения здесь

Итак, повторим вопрос из заголовка:

Можно ли построить линию регрессии для ранжированных данных корреляции / регрессии Спирмена?

regression data-visualization spearman-rho ordered-logit isotonic караул
источник

Сколько категорий в рейтинге? Вы проверяли предположение о пропорциональности? Есть много исследователей, которые прекрасно подходят для обработки порядковых данных (например, ранжирования) как непрерывных. Иногда, если есть много категорий, это имеет смысл.

robin.datadrivers

Есть семь рангов, они используются для теста Фридмана

Sentry

Ответы:

Ранг-корреляция может быть использована для определения монотонной связи между переменными, как вы заметили; как таковой, вы обычно не строите линию для этого.

Существуют ситуации, когда имеет смысл использовать ранговые корреляции для фактического соответствия строк числовому-y против числового-x, будь то Кендалл или Спирмен (или некоторые другие). Смотрите обсуждение (и, в частности, последний сюжет) здесь .

Это не ваша ситуация, хотя. В вашем случае я был бы склонен просто представить диаграмму рассеяния исходных данных, возможно, с гладкой взаимосвязью (например, с помощью LOESS).

Вы ожидаете, что отношения будут монотонными; Возможно, вы попытаетесь оценить и построить монотонные отношения. [Там есть R-функция обсуждается здесь , что может поместиться изотонической регрессия. - в то время как пример есть унимодален не изотонический, функция может сделать изотонические припадки]

Вот пример того, что я имею в виду:

введите описание изображения здесь

Сюжет показывает монотонную связь между х и у; красная кривая - это лёссовое сглаживание (в данном случае сгенерированное в R с помощью scatter.smooth), которое также оказывается монотонным (есть способы получить сглаживание, которое гарантированно будет монотонным, но в этом случае сглаживание лёсса по умолчанию было монотонным, поэтому Я не чувствовал необходимости беспокоиться.

введите описание изображения здесь
График ранга (y) против ранга (x), что указывает на монотонное отношение. Зеленая линия показывает ранги подгоночных значений кривой Лёсса против ранга (x).

$\hat{y}$

Если вы не отображаете ничего, кроме ранга (Y) против X, я думаю, что я бы избегал использовать линии на графиках; насколько я вижу, они не передают большую ценность выше коэффициента корреляции. И уже сказал, что вас интересует только тренд.

[Я не знаю, что неправильно строить линию регрессии на графике «ранжирование-против-ранжирование-х», трудность заключается в ее интерпретации.]

Glen_b - Восстановить Монику
источник

Спасибо, ваш ответ хороший и хорошо объяснил. Однако это заставило меня понять, что я, возможно, пропустил важную информацию. Это все еще верно с дополнительной информацией, которую я предоставил? Графики следуют позже сегодня, когда я за своим рабочим компьютером.

Часовой

Взгляните на мое обновление и посмотрите, считаете ли вы что-либо из этого полезным.

Glen_b

Да, это имеет значение, но больше в общем смысле. Я также согласен с тем, что «неправильность» проистекает из трудности интерпретации сюжета. Я боюсь, что люди всегда будут предполагать, что я хочу предсказать рейтинг по функции, даже если я заявляю, что я хочу показать только тенденцию .

Часовой

Глядя на свои графики, вы показываете рейтинги, но есть ли у вас оригинальные показатели эффективности, на которых основывались рейтинги?

Glen_b

Да, но они не могут быть использованы здесь, поверьте мне. Основное внимание в моем исследовании уделяется сравнению алгоритмов с использованием теста Фридмана, который ранжирует их. Существует несколько наборов данных с сильно различающимися диапазонами производительности, поэтому здесь интересно только сравнение между ними.

Часовой

$\rho$ $X$ $X$ $X$ $Y$ $Y$

Фрэнк Харрелл
источник