У меня есть данные вина из здесь , который состоит из 11 числовых независимых переменных с зависимой рейтинг , связанной с каждой записью со значениями от 0 до 10. Это делает его отличный набор данные , чтобы использовать регрессионную модель для изучения взаимосвязи между переменными и ассоциированным рейтинг. Однако будет ли целесообразной линейная регрессия или лучше использовать полиномиальную / упорядоченную логистическую регрессию?
Логистическая регрессия кажется лучше для конкретных категорий, то есть не для непрерывной зависимой переменной, но (1) есть 11 категорий (слишком много?) И (2) при проверке, есть данные только для 6-7 из этих категорий, т.е. 5-4 категории не имеют примеров в наборе данных.
С другой стороны, линейная регрессия должна линейно оценивать рейтинг от 0 до 10, что кажется ближе к тому, что я пытаюсь выяснить; тем не менее, зависимая переменная не является непрерывной в наборе данных.
Какой подход лучше? Примечание: я использую R для анализа
Отредактируйте, обращаясь к некоторым пунктам, упомянутым в ответах:
- Нет никакой деловой цели, поскольку это фактически для университетского курса. Задача состоит в том, чтобы проанализировать набор данных по своему выбору.
- Распределение рейтингов выглядит нормально (гистограмма / qq-plot). Фактические значения в наборе данных находятся между 3-8 (хотя технически 0-10).
источник
Я не специалист по логистической регрессии, но я бы сказал, что вы хотите использовать многочлен из-за вашей дискретной зависимой переменной.
Линейная регрессия может выводить коэффициенты, которые могут быть экстраполированы из возможных границ вашей зависимой переменной (т.е. увеличение независимой переменной приведет к тому, что зависимая переменная выйдет за пределы вашей границы для данного коэффициента регрессии).
Полиномиальная регрессия даст различные вероятности для различных результатов вашей зависимой переменной (то есть коэффициент вашей регрессии даст вам, как они увеличивают свою вероятность, чтобы получить лучший результат, не выходя за рамки).
источник
Другая возможность - использовать Случайный Лес. Есть два способа измерить «важность» переменной в Случайном Лесу:
Случайные леса также поддаются типу визуализации данных, который называется «график частичной зависимости». Смотрите этот подробный учебник для более подробной информации.
Частичная зависимость и важность перестановок не являются специфическими для моделей случайных лесов, но их популярность росла вместе с популярностью случайных лесов из-за того, насколько эффективно их вычислять для моделей случайных лесов.
источник