Линейная регрессия или порядковая логистическая регрессия для прогнозирования рейтинга вина (от 0 до 10)

18

У меня есть данные вина из здесь , который состоит из 11 числовых независимых переменных с зависимой рейтинг , связанной с каждой записью со значениями от 0 до 10. Это делает его отличный набор данные , чтобы использовать регрессионную модель для изучения взаимосвязи между переменными и ассоциированным рейтинг. Однако будет ли целесообразной линейная регрессия или лучше использовать полиномиальную / упорядоченную логистическую регрессию?

Логистическая регрессия кажется лучше для конкретных категорий, то есть не для непрерывной зависимой переменной, но (1) есть 11 категорий (слишком много?) И (2) при проверке, есть данные только для 6-7 из этих категорий, т.е. 5-4 категории не имеют примеров в наборе данных.

С другой стороны, линейная регрессия должна линейно оценивать рейтинг от 0 до 10, что кажется ближе к тому, что я пытаюсь выяснить; тем не менее, зависимая переменная не является непрерывной в наборе данных.

Какой подход лучше? Примечание: я использую R для анализа

Отредактируйте, обращаясь к некоторым пунктам, упомянутым в ответах:

  • Нет никакой деловой цели, поскольку это фактически для университетского курса. Задача состоит в том, чтобы проанализировать набор данных по своему выбору.
  • Распределение рейтингов выглядит нормально (гистограмма / qq-plot). Фактические значения в наборе данных находятся между 3-8 (хотя технически 0-10).
Dimebag
источник

Ответы:

9

Упорядоченная модель логита является более подходящей, поскольку у вас есть зависимая переменная, которая является ранжированием, например, 7 лучше, чем 4. Так что есть четкий порядок.

Это позволяет получить вероятность для каждого бина. Есть несколько предположений, которые вы должны принять во внимание. Вы можете посмотреть здесь .

Одно из предположений, лежащих в основе порядковой логистической (и порядкового пробита) регрессии, заключается в том, что отношения между каждой парой групп результатов одинаковы. Другими словами, порядковая логистическая регрессия предполагает, что коэффициенты, которые описывают отношения между, скажем, самой низкой и всеми более высокими категориями переменной отклика, такие же, как и те, которые описывают отношения между следующей самой низкой категорией и всеми более высокими категориями и т. Д. Это называется предположением о пропорциональных шансах или предположением о параллельной регрессии.

Некоторый код:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

Вы можете получить дальнейшие объяснения здесь , здесь , здесь или здесь .

Имейте в виду, что вам нужно будет преобразовать ваши коэффициенты в отношение шансов, а затем в вероятности, чтобы получить четкую интерпретацию с точки зрения вероятностей.

Простым (и упрощенным образом) вы можете вычислить их следующим образом:

еИксп(βя)знак равноОddsрaTяо

еИксп(β1)ΣеИксп(βя)знак равнопробaбяLяTY

(Не хочу быть слишком техническим)

adrian1121
источник
4

Я хотел бы представить другой взгляд на проблему: в реальном мире этот вопрос реже встречается, потому что то , что нужно делать, зависит от потребностей бизнеса .

Основной вопрос в реальном мире - что делать после получения прогноза?

  • Предположим, что бизнес хочет уничтожить вино «низкого качества». Затем нам нужно какое-то определение «насколько плохо это плохо» (скажем, качество ниже ). С определением должна использоваться двоичная логистическая регрессия, потому что решение является двоичным. (мусор или держать, в середине ничего нет).2

  • Предположим, бизнес хочет выбрать хорошее вино для отправки в три типа ресторанов. Тогда потребуется многоклассовая классификация.

В целом, я хочу утверждать, что то, что нужно делать, действительно зависит от потребностей после получения прогноза, а не просто смотреть на атрибут переменной ответа.

Haitao Du
источник
1

Хотя упорядоченная логит-модель (как описано в @ adrian1121) была бы наиболее подходящей с точки зрения допущений модели, я думаю, что множественная линейная регрессия также имеет некоторые преимущества.

  1. Простота интерпретации . Линейные модели легче интерпретировать, чем упорядоченные модели logit.
  2. Комфорт заинтересованных сторон . Пользователям модели может быть удобнее с линейной регрессией, потому что они с большей вероятностью узнают, что это такое.
  3. Более экономно (проще). Более простая модель может работать так же хорошо, см. Связанную тему .

Тот факт, что большинство ответов составляет от 3 до 8, подсказывает мне, что линейная модель может работать в соответствии с вашими потребностями. Я не говорю, что это «лучше», но это может быть более практичный подход.

Underminer
источник
0

В принципе упорядоченная модель логита кажется подходящей, но 10 (или даже 7) категорий довольно много.

1 / В конечном счете, имеет ли смысл провести некоторое перекодирование (например, оценки 1–4 будут объединены в одну единственную модальность, скажем, «низкая оценка»)?

2 / Как распределяются рейтинги? Если бы распределение было достаточно хорошим, то линейная регрессия хорошо бы сработала (см. Линейную вероятностную модель ).

3 / В противном случае я бы пошел на что-то совершенно другое, называемое « бета-регрессия » - 11-балльная шкала оценки является чем-то довольно подробным по сравнению с классической 5-балльной шкалой - я думаю, что было бы приемлемо рассматривать шкалу рейтинга как «интенсивность» scale где 0 = Null и 1 = Full / Perfect - Делая это, вы в основном предполагаете, что ваш масштаб является интервальным (а не порядковым), но для меня это звучит приемлемо.

Умка
источник
3
Почему 10 (или 7) категорий много? Есть ли фундаментальная техническая причина, по которой 10 категорий не будут вести себя должным образом в упорядоченной модели логита, или вы говорите с чисто практической точки зрения? (например, аналогичные соображения к ответу, который дал hxd1011.)
RM
Нет, технической причины нет, если данные позволяют оценить упорядоченный логит (OL) с категориями «так много». Однако указание модели OL с 11 категориями подразумевает оценку 10 «постоянных» терминов (т. Е. Пороговых параметров). Для меня это звучит очень много, особенно если некоторые категории недостаточно представлены в базе данных. 11 категорий немного переутомлены, я бы либо рассматривал рейтинги как непрерывные переменные, либо свернул некоторые модальности, чтобы указать более экономную (и, возможно, более значимую) модель OL.
Умка
-1

Я не специалист по логистической регрессии, но я бы сказал, что вы хотите использовать многочлен из-за вашей дискретной зависимой переменной.

Линейная регрессия может выводить коэффициенты, которые могут быть экстраполированы из возможных границ вашей зависимой переменной (т.е. увеличение независимой переменной приведет к тому, что зависимая переменная выйдет за пределы вашей границы для данного коэффициента регрессии).

Полиномиальная регрессия даст различные вероятности для различных результатов вашей зависимой переменной (то есть коэффициент вашей регрессии даст вам, как они увеличивают свою вероятность, чтобы получить лучший результат, не выходя за рамки).

Денис
источник
3
Многочлен хорош для нескольких неупорядоченных категорий. Порядковая логистика (что предлагает OP в вопросе) хороша для нескольких упорядоченных категорий.
Грегор
-1

Другая возможность - использовать Случайный Лес. Есть два способа измерить «важность» переменной в Случайном Лесу:

  1. ИксJИксJИксJYИкс
  2. ИксJИксJ

Случайные леса также поддаются типу визуализации данных, который называется «график частичной зависимости». Смотрите этот подробный учебник для более подробной информации.

Частичная зависимость и важность перестановок не являются специфическими для моделей случайных лесов, но их популярность росла вместе с популярностью случайных лесов из-за того, насколько эффективно их вычислять для моделей случайных лесов.

shadowtalker
источник
1
Я знаю, что это несколько косвенный ответ, но я хотел бы знать, почему это было отклонено. Это неверно?
Shadowtalker