Недавно я получил ревизию для своей исследовательской работы, и ниже приводится комментарий рецензента к моей статье:
результаты, полученные на одной модели, не совсем убедительны, особенно линейная регрессия обычно имеет недостатки в работе с выбросами. Я предлагаю авторам также попробовать логистическую регрессию и сравнить соответствующие результаты с текущими результатами. Если бы подобные наблюдения были получены, результаты были бы более солидными.
Правильный ли комментарий рецензента? Является ли логистическая регрессия лучше, чем множественная линейная регрессия?
Проблема в том, что моя зависимая переменная не является категориальной, это переменная масштаба. Что я могу сделать сейчас? Какой другой метод регрессии вы рекомендуете оценить мою модель?
Оценка является зависимой переменной в следующей таблице. Периодичность, частота, срок владения и последний балл являются независимыми переменными.
Я извлек эти переменные с сайта, и я предполагаю, что эти независимые переменные оказывают существенное влияние на оценку . Поэтому я представляю следующие модели:
Кстати, значение R в квадрате для этой линейной модели составляет 0,316! Рецензент также прокомментировал это значение:
тогда результаты не убедительны, так как нет показателя качества изученных коэффициентов. Небольшое значение R ^ 2 не может указывать на хорошую производительность, поскольку модель может быть переоснащена.
0,316 является очень низким для R в квадрате? В предыдущих работах я много видел подобные значения.
Ответы:
Пропорциональная модель порядковой логистической регрессии шансов должна хорошо работать для этой проблемы. Для эффективной реализации, которая может позволить тысячи уникальных значений смотрите функцию в пакете R.Y
orm
rms
источник
Вы также можете попробовать упорядоченные модели пробит / логит, присвоив значения 1, 2,3 и 4 баллам в 1-м, ....., 4-м процентилях соответственно.
источник
Вы можете дихотомизировать (преобразовать в двоичную переменную) счет. Если оценка от 0 до 100, вы можете присвоить 0 любому баллу меньше 50 и 1 в противном случае. Я никогда раньше не слышал, чтобы это был хороший способ борьбы с выбросами. Это может просто скрыть выбросы, поскольку невозможно будет различить очень высокие или низкие оценки. Это не имеет большого смысла для меня, но вы можете попробовать это.
Я не собираюсь притворяться, что знаю много о статистике, но мне кажется, основываясь на его комментариях, что этот рецензент может знать еще меньше.
источник
Можно применить логистическую регрессию даже к непрерывной зависимой переменной. Это имеет смысл, если вы хотите убедиться, что предсказанное
score
всегда находится в пределах[0, 100]
(по вашим скриншотам я вижу, что это по 100-балльной шкале).Для этого просто разделите ваш счет на 100 и запустите логистическую регрессию с этой
[0,1]
целевой переменной, как в этом вопросе - вы можете сделать это, например, сR
помощьюисточник